首页 > 论文范文 > 医药卫生论文 > 肿瘤科论文 > 乳腺癌论文 > Swin Transformer和卷积注意力的乳腺癌病理图像诊断研究

Swin Transformer和卷积注意力的乳腺癌病理图像诊断研究

2024-07-03 134 上传者：管理员

摘要：为了降低由于医生阅片疲劳或经验不足而可能导致的漏诊或误诊问题，提高医生诊断乳腺癌病理图像的准确性和工作效率，文中采用北京大学国际医院提供的公开的最大乳腺癌病理组织图像数据集，包括正常、良性病变、原位癌和浸润癌四种类型，并提出了一种基于Swin Transformer和卷积注意力机制的乳腺癌病理图像诊断方法，给出了诊断算法的框架和处理流程，在评价指标方面取得了96.93%的精确率、97.82%的召回率和97.74%的准确率，与常用的卷积神经网络ResNet152、VGG16相比，精确率和准确率都是最高的，从而证明提出的方法是有效的。最后，基于Flask技术和Swin Transformer开发了可视化的乳腺癌病理图像诊断软件，只需提供一张患者的乳腺癌病理组织图像，10 s左右即可自动输出诊断结果，可以极大地提高医生的工作效率。

关键词：
Flask
Swin Transformer
乳腺癌
卷积注意力机制
深度学习
病理图像
加入收藏

癌症一直是威胁人类健康的公共卫生问题。根据国际癌症研究机构2023年初发布的最新癌症报告[1]显示，乳腺癌以每年新发病226万例的数量首次超越肺癌的220万例，成为了全球发病数量最大的癌症。而在中国，每年新发乳腺癌的病例约为42万例，发病高峰在45～55岁。因此，乳腺癌的早期发现及诊断治疗具有重要的现实意义。

临床上，病理图像检查一直是癌症诊断的“金标准”[2]。通常由医生通过B超、核磁共振、钼靶等方法对患者病理组织切片进行人工诊断，而不同层次的医院由于医生数量不足、经验的不足，再加上医生每天大量阅片引起的疲劳，导致很多癌症出现了误诊或漏诊的问题，故而不能及时确诊或在早期发现癌症，是癌症死亡率高发的原因之一。相关研究报告表明，若能在早期发现或确诊癌症，患者的生存率较高、预后较好。而对于乳腺癌的诊断来说，同样需要开发更加准确或智能的方法。因此，针对乳腺癌的准确诊断问题成为了目前的研究热点[3,4,5,6]。

近十年来，人工智能技术得到了迅猛发展和广泛应用，在图像处理、自然语言处理和生物医学信息等领域取得了显著的应用。通过采用深度学习技术，一方面使得胃癌[7]、乳腺癌[8]等疾病的精确分类成为可能，另一方面还可以辅助医生进行疾病诊断，包括分型、评级和预后等。在最初的医学图像分类中，作为图像处理领域的基础模型，一些经典的卷积神经网络，例如VGGNet[9]、ResNet[10]、EfficientNet[11]得到了广泛应用。鉴于自然语言处理领域的主流模型Transformer[12]的显著优势，学者们探索将Transformer改进后应用于图像处理领域。例如，Vision Transformer网络模型[13]可以在图像分类问题中直接利用Transformer网络进行分类；而Swin Transformer模型[14]则采用分层的结构，通过预测图像块序列进行图像分类，可应用于求解图像分类、目标检测和语义分割等任务[15,16,17]。

本文在分析北京大学国际医院公开的最大乳腺癌病理图像数据集[18]的基础上，提出了一种基于Swin Transformer和卷积注意力的乳腺癌病理图像诊断方法。首先，使用在ImageNet图像数据集上训练得到的权重，初始化SwinTransformer网络模型的参数，再在乳腺癌病理图像数据集上进行微调操作；然后，通过与图像分类问题中常用的经典卷积神经网络，例如ResNet152、VGG16进行对比实验，验证了Swin Transformer网络在乳腺癌病理图像诊断分类方面的有效性；最后，采用Flask技术框架，设计开发了基于Swin Transformer的乳腺癌病理图像诊断软件，在常规的计算机上，10 s左右即可快速获得可视化的诊断结果，极大地提高了医生的诊断工作效率。

1、相关工作

病理检查是癌症诊断的“金标准”。针对乳腺癌的病理图像诊断问题，国内外研究学者基于机器学习、深度学习等技术开展了广泛的研究。在研究使用的乳腺癌数据集方面主要有：巴西P&D实验室发布的BreaKHis数据集[19]；乳腺癌病理组织图像挑战赛发布的BACH数据集[20]；北京大学国际医院发布的乳腺癌病理图像数据集[18]。

在基于乳腺组织病理图像的人工智能诊断算法研究方面，主要包括两大方面：一是将传统机器学习算法和人工特征提取相结合的方法；二是基于深度学习的方法。

第一种方法主要使用传统的机器学习方法，例如支持向量机[21]、随机森林[22]等，对人工提取的乳腺癌病理图像特征进行分类。文献[23]基于人工提取的病理图像特征，提出一种单类核的主成分分析方法，在361张乳腺癌组织病理图像的诊断中，分类准确率达到92%。文献[24]使用支持向量机方法，在68幅乳腺癌组织病理图像的诊断中，分类准确率达到96.2%。但是由于传统的人工特征提取方法存在着一些不足，例如，需要专业的病理图像知识和花费很多时间和精力，影响了传统机器学习方法在乳腺癌病理图像分类上的广泛应用。

第二种方法主要是将深度学习技术应用于乳腺癌病理图像诊断，获得智能化的辅助诊断能力。文献[25]将经典的卷积神经网络AlexNet应用于乳腺癌病理图像分类中，采用不同的融合策略，在BreaKHis乳腺癌病理数据集上，平均分类准确率达到83.2%。文献[26]将ResNet50网络模型进行迁移学习，实现乳腺癌组织病理图像的良、恶性二分类，分类准确率达到97.4%。对于乳腺癌来说，良性、恶性的二分类研究在临床上并不能帮助医生做出有针对性的治疗方案，因此，需要进一步实现乳腺癌病理图像的多分类研究。但是，当前开源的乳腺癌病理图像数据集的规模较小，还存在着各类别之间不平衡的问题。

因此，为了进一步提高乳腺癌病理图像诊断方法的分类性能，本文受SwinTransformer应用于肝囊型包虫病超声图像分类研究方法[16]的启发，设计了一种基于Swin Transformer和卷积注意力的乳腺癌病理图像诊断方法，描述了算法原理、绘制了流程图，并通过具体实验验证了该方法的有效性。最后，基于Flask框架开发了可视化的乳腺癌病理图像辅助诊断软件。

2、材料与方法

2.1乳腺癌病理图像数据集

为了便于进行乳腺癌病理图像诊断研究，以及保证病理图像的多样性，与以往采用的乳腺癌数据集规模较小不同，本文采用北京大学国际医院提供的乳腺癌病理组织图像数据集。该数据集包括3771例乳腺病理图像，是目前公开发布的最大的乳腺癌病理组织图像分类数据集，而且涵盖了尽可能多的、跨越不同年龄组的不同子类，从而提供了足够的数据多样性来缓解良性图像分类精度相对较低的问题。

该乳腺癌病理图像数据集来自北京大学国际医院从2015年3月—2018年3月收集的就诊患者的病理图像，使用脱敏方式处理、匿名使用，并获得了医院伦理委员会的批准。每张病理图像采用高通量快速玻片扫描仪获得，具有高分辨率的特点，图像的像素大小为2 048×1 536。该数据集主要由四种乳腺癌病理图像类型组成：正常（Normal）、良性病变（Benign）、原位癌（In situ carcinoma,In situ）和浸润癌（Invasive carcinoma,Invasive）。其中：正常（Normal）类型包括299张病理图像；良性病变（Benign）类型包括1106张病理图像；原位癌（In situ）类型包括1 066张病理图像；浸润癌（Invasive）类型包括1 300张病理图像。

为便于展示说明该乳腺癌病理图像数据集收集的患者病理图像类型，选择了4张分别属于正常（Normal）、良性病变（Benign）、原位癌（In situ）和浸润癌（Invasive）的乳腺癌病理组织图像例子，如图1所示。

图1四种不同类型的乳腺癌病理图像例子

2.2基于Swin Transformer和卷积注意力的乳腺癌病理图像诊断方法

Transformer网络模型[13]最开始主要用于自然语言处理领域，具有强大的表征能力和计算量大的特点。为了能够将Transformer更好地应用于图像处理，微软研究院2021年提出了基于多头注意力机制的Swin Transformer模型[14]，采用滑动窗口机制和空间降维注意力方法，有效地解决了Transformer网络计算量大的问题，从而促进了其在图像分类领域的应用。比如已有Swin Transformer网络应用于肝囊型包虫病超声图分类的成功研究[16]，本文受其启发，将Swin Transformer引入到乳腺癌病理图像诊断分类问题研究中。

SwinTransformer模型是一种分层的网络结构，对Transformer进行的一个重要改进就是使用基于窗口的多头自注意力机制。将输入图片划分成不重合的窗，然后在不同的窗内进行自注意力计算。由于窗内部的块数量远小于图像的块数量，并且窗口数量是保持不变的。而多头自注意力机制的计算复杂度和图像尺寸之间呈线性关系，因此，相当于是直接对整个特征图进行多头注意力机制计算，可以显著减少计算量。

为了能够更好地提取图像的特征，通常在Swin Transformer网络结构中引入卷积注意力机制（Convolutional Block Attention Module,CBAM)[27]。CBAM是一种简单有效的前馈卷积神经网络注意力模块，因其能够将图像的通道和空间注意力机制相结合，使网络更关注图像的重要信息，而在图像处理领域中得到广泛的应用。由于本文研究的乳腺癌病理图像的纹理特征较为复杂，因此，为了进一步细化骨干网络提取到的病理图像特征，本文研究方法在SwinTransformer网络第一阶段的线性嵌入层前、后分别加上CBAM模块，如图2所示，使得网络不仅能够关注到乳腺组织不同病灶区域的图像特征，而且能够注意到最高响应以外的图像区域，从而增加了更多的病理图像特征信息，可以进一步提高网络的分类性能。

图2卷积注意力机制原理

因此，结合上述SwinTransformer的神经网络结构和卷积注意力机制的特点，本文设计一种基于Swin Transformer和卷积注意力机制的乳腺癌病理图像诊断方法，算法的具体框架和处理流程如图3所示。

图3基于Swin Transformer的乳腺癌病理图像诊断流程图

从图3中可以看到，基于Swin Transformer和卷积注意力的乳腺癌病理图像诊断算法的处理流程可以描述如下：

步骤1：在Patch划分模块（Patch Partition）中对输入的待诊断患者的乳腺癌病理图像进行分块。

步骤2：通过Swin Transformer的四个阶段构建不同大小的特征图。其中，第一阶段是先在线性嵌入层（Linear Embedding）的前、后加上卷积注意力机制模块，使网络能够关注不同乳腺病灶区域的特征，并通过线性嵌入层对每个像素的通道数据做线性变换；第二、三和四阶段是通过一个图像降采样层（Patch Merging）进行下采样。

步骤3：在全连接层通过采用Classifier分类器，根据正常、良性病变、原位癌和浸润癌的图像特征，以及预测的概率大小，对4种乳腺癌病理图像类型进行分类，并输出诊断分类结果。

2.3可视化乳腺癌病理图像诊断软件开发

为了帮助放射科医生提高乳腺癌病理图像的诊断工作效率，减少因医生的阅片疲劳或经验不足而可能导致的误诊或漏诊问题，本文基于SwinTransformer网络开发了可视化的乳腺癌病理图像诊断软件，即采用Flask框架技术[28]开发基于Web端的乳腺癌病理图像快速诊断软件。

3、结果与分析

3.1实验环境和参数设置

为了便于比较不同深度学习方法的性能，在同一实验平台下进行，具体配置如下：深度学习框架Pytorch、GPU显卡为TeslaA100,CPU为48核，内存为128GB，硬盘为1 TB，操作系统为Ubuntu 20.04。

训练过程的参数设置：为了便于深度神经网络训练，将实验用的乳腺癌病理图像数据集按照8∶2的比例划分为训练集和测试集。将病理图像输入尺寸大小设置为224×224像素，batch＿size为12，模型设置初始学习率为0.000 1，优化器（Adam）采用自适应学习率梯度下降法，采用交叉熵损失函数，训练迭代次数设置为2 500 Epoch，训练时使用冻结层，在前50 Epoch迭代不训练主干层，在第50Epoch之后解冻主干层。在训练时也应用了早停法，当连续20次迭代网络的验证集Loss没有下降时，停止训练并且保存网络模型。分类器是Softmax。为提高训练效率，在算法具体实验时，均首先采用迁移学习策略对深度学习基本模型的参数进行微调。

3.2评价指标

为了便于评估不同深度神经网络的算法性能，本文也采用在多分类问题中经常使用的精确率（Precision）、召回率（Recall）、准确率（Accuracy），作为衡量深度学习模型在乳腺癌病理图像诊断中的分类评价指标，这些评价指标的百分比数值越大，表示对应的深度学习模型在该数据集中的性能越好。定义公式如下：

式中：TP表示真正例，即诊断结果为正例，实际也是正例；FP表示假正例，即诊断结果为正例，实际为负例；FN表示假负例，即诊断结果为负例，实际是正例；TN表示为真负例，即诊断结果为负例，实际也是负例。

3.3实验结果比较和分析

为了验证本文提出的基于Swin Transformer的乳腺癌病理图像诊断算法的有效性，与常用的图像处理网络ResNet152、VGG16在乳腺癌病理图像数据集上进行实验，并记录各网络对乳腺癌病理图像诊断分类的总体精确率、召回率和准确率数据，如表1所示。

表1不同深度学习模型的分类结果

从表1中可见，在3个不同网络中，基于Swin Transformer网络的分类精确率和准确率都最高，分别为96.93%、97.74%，而基于VGG16网络的召回率最高，为98%。总的来说，基于本文提出的SwinTransformer的乳腺癌病理图像诊断方法相对较好。

为了进一步分析不同深度神经网络的表现，将不同深度学习网络对乳腺癌病理图像四分类识别的精确率进行对比，如图4所示。

图4不同深度学习模型分类的精确率比较

从图4a）中可见，ResNet152网络将乳腺癌病理图像诊断为正常、良性病变、原位癌和浸润癌的精确率值分别为81%、99%、95%和94%，总体为92.16%。由图4b）可知，VGG16网络诊断为4分类的精确率值分别为89%、96%、99%和100%，总体为96%。由图4c）可知，本文提出的SwinTransformer网络将乳腺癌病理图像诊断为正常、良性病变、原位癌和浸润癌的精确率值分别为94%、97%、98%和99%，总体精确率为96.93%，是三个模型中最高的，进一步验证了本文提出的基于Swin Transformer和卷积注意力的乳腺癌病理图像的诊断分类性能相对较好。

因此，将表现较好的基于SwinTransformer和卷积注意力的乳腺癌病理图像算法进行正常、良性病变、原位癌和浸润癌诊断具体分类结果的混淆矩阵展示，如图5所示。其中，在包含59个正常（Normal）类型的病理图像中，58个诊断正确为Normal类，1个诊断为In situ，诊断为正常的准确率为58 59=98.31%；在包含221个良性病变（Benign）类型的病理图像中，217个诊断正确为Benign类，3个诊断为Normal,1个诊断为Invasive，诊断为良性病变的准确率为217 221=98.19%；在包含213个原位癌（In situ）类型的病理图像中，206个诊断正确为In situ类，6个诊断为Benign,1个诊断为Invasive，诊断为原位癌的准确率为206 213=96.71%；在包含260个浸润癌（Invasive）类型的病理图像中，255个诊断正确为Invasive类，1个诊断为Normal,4个诊断为In situ，诊断为浸润癌的准确率为255 260=98.08%。因此，基于Swin Transformer和卷积注意力的乳腺癌病理图像算法在诊断正常、良性病变、原位癌和浸润癌四种类型的准确率较高，均达到96%以上，进一步说明了本文提出方法的有效性。

图5基于Swin Transformer诊断结果的混淆矩阵

3.4基于Web的乳腺癌病理图像诊断软件

综上可知，基于SwinTransformer的乳腺癌病理图像诊断算法表现较好，因此，为了帮助临床医生提高诊断的工作效率，采用Flask技术开发了基于Swin Transformer的乳腺癌病理图像诊断可视化软件。实现的基于Web端的可视化诊断软件界面如图6所示，其中，左边是输入的待诊断乳腺患者的病理图像，点击“开始识别”后，在常规的计算机上，10 s左右将在右边显示该张乳腺癌病理图像的诊断结果，并以可视化的方式提供给医生，为临床医生最终确定乳腺癌病理图像诊断结果提供坚实的基础。

图6基于Swin Transformer的乳腺癌病理图像诊断软件界面

综上所述，基于Swin Transformer和Flask框架实现的可视化乳腺癌病理图像诊断软件操作界面简单、友好，仅需输入一张就诊患者的乳腺病理图像，在常规计算机上只需10 s左右即可快速给出诊断结果，可以极大地提高医生的诊断工作效率，有助于减少医生由于阅片疲惫或经验不足导致的误诊或漏诊现象，具有较好的社会效益。

4、结语

为了提高放射科医生诊断的工作效率，减少因阅片疲劳或经验不足而导致的误诊或漏诊问题，本文设计了一种基于Swin Transformer和卷积注意力机制的乳腺癌病理图像诊断算法，在开源的较大规模的乳腺癌病理图像数据集上，与常用的卷积神经网络ResNet152、VGG16进行比较。实验结果显示，基于SwinTransformer的乳腺癌病理图像诊断算法在评价指标上表现是最好的，验证了本文提出方法的有效性，且基于Swin Transformer开发了可视化的乳腺癌病理图像诊断软件，操作界面简单友好，可以帮助医生快速诊断病理结果，极大地提高了医生的诊断工作效率，并为后续制定治疗方案提供了坚实的基础。

虽然本文提出的乳腺癌病理图像诊断方法是有效的，但是由于乳腺癌的病理机制较为复杂、类型繁多，本文提出的方法仅能识别四种类型，不利于推广使用。同时，由于缺乏大量临床数据的测试，本文开发的乳腺癌病理图像诊断软件的性能还有待提高，下一步将与有意向的医院合作，采集更多的病理图像，开展乳腺癌病理图像软件的临床测试。

参考文献:

[2]满芮,杨萍,季程雨,等.乳腺癌组织病理学图像分类方法研究综述[J].计算机科学,2020,47(z2):145-150.

[4]易才健,陈俊,王师玮.基于CNN的乳腺癌病理图像分类研究[J].智能计算机与应用,2022,12(3):92-96.

[5]张喜科,马志庆,赵文华,等.基于卷积神经网络的乳腺癌组织病理学图像分类研究综述[J].计算机科学,2022,49(z2):362-370.

[6]于凌涛,夏永强,闫昱晟,等.利用卷积神经网络分类乳腺癌病理图像[J].哈尔滨工程大学学报,2021,42(4):567-573.

[7]李宏霄,李姝,石霞飞,等.基于BiT的早期胃癌内镜图像识别[J].激光与光电子学进展,2022,59(6):354-362.

[8]张雪芹,李天任.基于Cycle-GAN和改进DPN网络的乳腺癌病理图像分类[J].浙江大学学报(工学版),2022,56(4):727-735.

[11]刘雅楠,王晓艳,李靖宇,等.基于空间注意力机制的EfficientNet乳腺癌病理图像分类研究[J].电子元器件与信息技术,2022,6(8):1-4.

[16]热娜古丽·艾合麦提尼亚孜,米吾尔依提·海拉提,王正业,等.基于Swin Transformer的肝囊型包虫病超声图分类研究[J].电子技术应用,2022,48(11):7-12.

[17]石磊,籍庆余,陈清威,等.视觉Transformer在医学图像分析中的应用研究综述[J].计算机工程与应用,2023,59(8):41-55.

基金资助:广西自然科学基金项目(2022GXNSFAA035625);广西多源信息挖掘与安全重点实验室开放基金项目(MIMS21-02);山东省职业教育教师创新团队(物联网专业)资助;青岛市信息技术名师工作室资助;

文章来源:禤浚波,周立广,梁英豪,等.基于Swin Transformer和卷积注意力的乳腺癌病理图像诊断研究[J].现代电子技术,2024,47(13):36-42.