首页 > 论文范文 > 医药卫生论文 > 肿瘤科论文 > 肺肿瘤论文 > 基于多任务对比自监督双通道网络的肺腺癌CT图像分类

基于多任务对比自监督双通道网络的肺腺癌CT图像分类

2024-10-30 17 上传者：管理员

摘要：目的基于CT图像的肺腺癌精确诊断对后续治疗具有重要的临床意义。卷积神经网络(convolutional nerual network, CNN)图像分类方法大多侧重于图像的局部特征，难以完全捕获全局知识和空间特征。为了充分学习这些有效特征，本文提出了一种多任务对比自监督双通道网络(multi-task contrastive self-supervised dual network, MTCSSDN),实现该疾病的计算机辅助诊断。方法首先采用基于Conformer的骨干网络将3D CNN和Transformer统一集成到一个网络框架中，使用特征耦合单元(feature coupling unit, FCU)交互式融合不同分辨率下的局部特征和全局表示。然后在同一网络框架中使用并行结构进行跨架构对比学习来联合捕获图像丰富的空间特征，以训练特征表达性能更强的预训练模型。最后迁移至下游图像分类任务，利用原始图像对下游网络模型进行微调，进一步提升模型的分类性能。结果 MTCSSDN算法在肺腺癌数据集上进行评估，获得79.70%±2.13%的平均分类准确率、78.70%±4.22%的平均敏感性、74.00%±7.44%的平均特异性和52.70%±6.12%的平均约登指数。结论本文所提出的MTCSSDN算法可以有效地提升肺腺癌辅助诊断的性能，具备潜在的临床应用价值。

关键词：
CNN
CT
卷积神经网络
肺腺癌分类
自监督学习
加入收藏

肺癌是全球第二大常见的癌症，肺腺癌是其最常见的亚型，占所有肺癌的近40%[1]。计算机断层扫描 (computed tomography, CT) 图像被认为是肺癌检测最直接、有效的影像工具[2]。目前肺腺癌的诊断主要依靠医师根据CT形态学主观评价，高强度的工作很容易使医生产生潜在的误诊、漏诊[3]。使用基于CT图像的肺腺癌计算机辅助诊断 (computer-aided diagnosis, CAD)可以辅助医生提高诊断的准确性，具有一致性和可重复性好的优点[4]。

深度学习在医学影像CAD中得到了广泛关注[5-6],卷积神经网络(convolutional neural network, CNN) 是典型的深度学习模型，目前已有研究将其应用于肺腺癌的辅助诊断[7]。例如，Wang等[7]学者构建了一种XimaNet的深度学习分类模型，评估了模型在表现为磨玻璃结节的肺腺癌侵袭性方面的性能；然而，深度学习的性能在很大程度上取决于大量手动标记的数据，由于收集和标注大量医学图像[8]耗时且费力，导致用于训练基于CNN的CAD模型面临着严重小样本 (small sample size, SSS) 问题，限制了模型的诊断性能[9]。

自监督学习(self-supervised learning, SSL) 是缓解SSS问题的一种有效方法[10]。目前的SSL算法主要使用传统的“预训练-微调”这种范式来训练上游单一的骨干网络[11-12],通过从训练样本自身构造各种监督信息，设计一个或多个辅助任务来实现最终的自监督的任务。例如，Fei等[13]提出一种典型的基于CNN的自监督算法，通过参数传递实现双监督知识传递；贡荣麟等[14]设计了一个基于双模超声图像重建的自监督学习任务，将微调后的单通道网络作为最终实现乳腺癌B超图像分类模型。但是，这种范式中所提取的图像特征难以满足多个辅助任务学习。在医学图像分类领域，目前基于CNN的图像分类方法大多侧重于图像的局部特征，难以完全捕获全局知识[15]。而Transformer由于其内部的自注意力和多层感知器结构，可以通过建模长期依赖性来学习全局信息[16]。因此，有研究提出数据驱动的SSL算法来学习不同数据内在的知识。最近的研究中，Peng等[17]提出一种Conformer的混合网络结构，将CNN和Transformer两种不同的网络架构结合。Guo等[18]提出了一种新的用于自监督视频表示学习的跨架构对比学习框架，使用3D CNN和Transformer两个体系结构协同工作生成不同的样本对，从而实现更有效的对比表征学习。

因此将两个不同的网络集成到一个SSL框架中是可行的。本文提出了一种新的多任务对比自监督双通道网络 (multi-task comparison self-supervised dual network, MTCSSDN)算法。在统一的框架中同时执行自监督学习和对比学习，用于提升模型的泛化能力，将其与现有的自监督方法区别开来。将上游辅助任务中学习到的知识迁移到下游分类任务中，以提高有限训练样本下CAD模型的诊断性能。在肺腺癌数据集上的实验结果表明了所提出的MTCSSDN的有效性。

1、方法

1.1 总体流程

本文提出的MTCSSDN算法流程如图1所示。该算法分为两大模块：上游多任务自监督辅助模块和下游图像分类任务模块。具体步骤如下：

图1 基于conformer的多任务对比自监督双通道网络结构

(1) 对原始数据进行预处理得到低分辨率(low resolution, LR)图像和高分辨率(high resolution, HR)图像，以此作为所设计的辅助任务的输入和标签。

(2) 采用特征耦合单元(feature coupling unit, FCU)模块进行信息交互，使用双通道解码器网络对3D CNN和Transformer两个网络结构同时进行重建任务训练。

(3) 同时使用同一双通道网络结构，从两种不同的网络架构生成正样本对，利用跨架构对比学习联合捕获图像丰富的空间特征，实现更有效的对比表征学习。两种网络架构协同工作，通过循环训练不断学习优化模型。

(4) 将上游辅助任务中训练获得的网络作为下游图像分类任务中的预训练模型迁移，通过实际分类任务中的原始训练数据对网络模型进行微调，以进一步提升模型的分类性能。

1.2 自监督重建任务

肺腺癌CT图像中有的病灶很小，分辨率低，难以识别。HR图像包含更详细的诊断信息，这实现了更高的诊断精度[19]。重建任务中采用图像超分辨率 (super-resolution, SR) 对CT图像进行预处理，通过下采样操作从原始CT图像生成多个成对的LR和HR样本。

剩余密度网络(residual dense network, RDN)是已成功应用于单图像超分辨率任务的典型模型[20]。在该网络架构中，结合剩余连接和密集连接的优点，中间层中的剩余密集块 (residual dense blocks, RDB) 执行分层特征的融合。图2显示了RDN的架构，每个RDB的特征融合后和经过上采样卷积后生成的LR和HR图像作为辅助重建任务的输入和标签。

图2 基于超分辨率的CT图像预处理

1.3 网络结构

为了充分利用3D CNN的局部特征和Transformer的全局表示，本文设计了一个基于conformer模型的双通道网络结构，如图3所示。该模型由一个初始化模块、双分支网络、FCU和用于双分支的两个解码器组成。初始化模块由步长同为2的7*7*7卷积和3*3*3最大池化组成，用于提取初始局部特征(如边缘和纹理信息),再将其输入到双分支网络。

图3 CNN模块、Transformer模块和FCU的实现细节

考虑到3D CNN分支中的特征映射和Transformer分支中的切片嵌入的特征维数是不一致的，为了消除两者之间的架构差异，FCU以交互式将CNN分支中的局部特征与Transformer分支中的全局表示进行融合。当传输到Transformer支路时，特征映射首先通过1*1卷积，然后使用下采样模块来完成空间维度对齐，最后将CNN分支中的特征图添加到切片嵌入；当从Transformer分支反馈到CNN分支时，需要对切片嵌入进行上采样以对齐空间尺度，通过1*1*1卷积将Transformer尺寸与CNN特征图对齐，并添加到特征图中。同时，LayerNorm和BatchNorm模块用于正则化特征。另外，特征图和切片嵌入之间存在显著的语义差距，即特征图是从局部卷积算子收集的，而切片嵌入是通过全局自注意机制聚合的。因此，FCU应用于每个块(第一块除外),以逐步填补语义空白。

最后，对于CNN分支，所有特征都被合并输入到一个解码器中；对于Transformer分支，所有特征被输入到另一个解码器中。在训练过程中，本文使用两个均方误差损失分别监督两个重建任务。

在这项工作中，本文利用了3D CNN和Transformer两个网络结构，并行使用以生成用于对比学习的不同正对。正样本对构造由N个不同的图像实例组成随机小批量样本，然后以相同的采样率从每个图像中随机截取，在一个小批量中总共有N个切片(C),随机打乱产生一组新的N个切片(Cs),然后将每个切片及其打乱的切片连接起来，并通过数据扩充进行进一步处理，将两个不同数据增强生成的切片分别由不同的编码器处理：基于CNN的编码器和基于Transformer的编码器。因此，本文为每个图像生成4个实例(Cq、Ck、Tq、Tk) 表示，用于构造正对样本，利用基于信息[21]的对比损失的实例判别思想。

式中：cont(Cq,Ck)是两个向量之间的相似性度量；Cq和Ck是两种特征表示；τ是一个可调参数。在这项工作中，将用于图像表示学习的构造扩展为

式中：Nj为来自队列大小为m的内存字典队列的负样本。如式(4)所示，本文的算法能够生成比标准对比学习更多的正对。

1.4 上下游模型训练

如图1所示，多任务自监督辅助任务的训练过程是通过基于Conformer的双通道网络结构。训练开始前，首先将带有标签的CT图像通过超分辨率进行预处理，将处理后的图像分别输入到CNN和Transformer网络结构中，使得模型在初始阶段具有较强的提取特征的能力。图像重建网络解码器部分由两个卷积块构建，每个块包含3个上采样卷积层。将生成的LR图像和HR图像分别输入到编码器-解码器模型中，进行图像重建任务，目的是了解病变内部的详细结构信息。采用均方误差(MSE)损失函数对模型进行优化，优化结果如下：

式中：Xi为真实值(ground truth);Yi为预测值；i为第i个样本。

同时引入了对比自监督学习，采用InfoNCE的对比损失函数对模型进行优化。将以上两种损失函数加权，得到最终损失函数为：

最后，将训练得到的权重参数作为预训练模型，迁移到下游分类任务上作为初始化参数微调训练。

2、结果

2.1 实验数据与预处理

本文实验肺腺癌CT数据均来自海军医科大学长征医院，共采集559例标注好的肺腺癌CT影像。肺腺癌在病理上分为4种亚型：非典型腺瘤性增生(atypical adenomatous hyperplasia, AAH) 86例、原位腺癌(adenocarcinoma in situ, AIS) 90例、微浸润性腺癌(minimally invasive adenocarcinoma, MIA) 107例和浸润性腺癌(invasive adenocarcinoma, IAC) 276例。根据病理检查结果将患者分为非浸润性腺癌(AAH/AIS/MIA)和浸润性腺癌(IAC)两类。每个结节的感兴趣体积(volume of interest, VOI)分割由经验丰富的胸部影像诊断医师手工独立勾画并进行特异性标记。为了保留肿瘤病灶周围多余的图像信息，对肺结节的侵袭性分类有意义，根据病灶对应的掩模裁剪病灶及病变周围组织，并将其尺寸大小调整为64×64×64。针对不同任务设计的实验预处理，图像可视化见图4,第一行至最后一行分别为AAH、AIS、MIA和IAC的原始CT图像裁剪后的VOI图及采用超分辨率预处理后相应的肿瘤区域图。

图4 原始CT图像的预处理结果

2.2 实验设计

为了评估本文提出的算法性能的有效性，本文选择如下自监督算法进行比较。

(1) ResNet18:对比实验采用一个单通道的ResNet18应用于肺腺癌侵袭性分类，其结果作为基准算法。

(2) MoCo[22]:将MoCo与基于微调的对比SSL算法进行比较，该算法以ResNet为主干，采用动量对比的实例判别作为辅助任务。

(3) SimCLR[23]:选择SimCLR作为经典的基于微调的对比SSL算法进行比较，使用ResNet作为主干，SimCLR采用批处理实例判别作为辅助任务。

(4) context_restoration[24]:该算法是一种基于微调的SSL算法，采用图像上下文恢复作为辅助任务。由于下游任务执行分类，因此本工作选择了广泛使用的ResNet作为共享主干。

此外，本文还对算法本身进行了消融实验，将MTCSSDN与以下算法进行比较。

(1) ResNet18:选择经典的ResNet18单通道网络作为基准对比。

(2) Transformer[25]:该算法选择传统的Transformer单通道网络作为基准对比。

(3) CACL[18]: 该算法采用跨架构对比学习框架，并行使用以生成用于对比学习的各种正对，从不同的样本对中学习强表示。

(4) conformer[17]:该算法采用并行结构，使用FCU以交互方式融合不同分辨率下的局部特征和全局表示来增强表征学习。

(5) STCSSDN:该算法采用了与MTCSSDN相同的双通道网络架构，但CNN和Transformer双通道网络结构在最后一层特征融合后只进行一次重建任务和对比学习。

本文对所有算法使用同一数据集，对数据集样本做5折划分，采用5折交叉验证对所有算法进行评估，结果均以5次结果的平均值±标准差的形式呈现。最终结果使用如下指标：分类准确率(accuracy, ACC)、特异度(specificity, SPE)、敏感度(sensitivity, SEN)和约登指数(Youden index, YI)。利用描述两者之间的受试者工作特征曲线( receiver operating characteristic curve, ROC),并计算对应曲线下面积( area under roc curve, AUC) 作为评价指标。AUC值越大，表明该模型的分类性能越强。

2.3 实现细节

实验中所有对比算法都是基于三维图像VOI进行训练和测试的，图像的大小统一为 64×64×64 像素，并做归一化操作。使用深度学习 Pytorch 框架构建模型并完成实验，实验进行100个epoch, 使用 Adam 算法优化参数，批量大小设置为 16。另外，为了对比公平，对所有算法的网络层数和其余各项超参数的设置也尽可能相同。

2.4 实验结果

不同算法在数据集上的指标结果如表1所示。相较于其他算法，本文提出的算法在各个指标上均有提高。本文提出的算法在ACC、SPE、SEN、YI、AUC上均获得最高的结果。与其他自监督学习方法相比，本文算法ACC、SPE、SEN、YI和AUC分别提升了1.9%、1.99%、2.11%、4.1%和2.05%。各项指标均取得了明显提升，证明了所提出算法的有效性。

肺腺癌数据集上的消融实验结果如表2所示。与ResNet18和Transformer相比，MTCSSDN的ACC分别提高3.54%和2.84%,SPE分别提高3.41%和2.40%,SEN分别提高2.67%和2.90%,YI分别提高6.08%和5.30%。结果表明，双通道网络结构比单通道的网络结构能学习到更有效的特征表示。与STCSSDN相比，MTCSSDN分别提高了2.88%、2.65%和1.37%的ACC,1.75%、1.91%和0.42%的SPE,3.31%、2.53%和1.66%的SEN,5.06%、4.44%和2.08%的YI,这表明了多个任务能够提取到更多的特征，使得算法的有效性更好。与CACL和conformer相比，MTCSSDN分别提高了2.88%和2.65%的ACC,1.75%和1.91%的SPE,3.31%和2.53%的SEN,5.06%和4.44%的YI,这表明了引入对比学习能够捕获更丰富的特征，训练出泛化性能更好的模型。

表1 不同自监督学习算法在肺腺癌数据集的分类结果

表2 肺腺癌数据集上的消融实验结果

肺腺癌数据集上不同比较算法的ROC曲线如图5(a)所示。图中还显示了相应的AUC值，可以看到本文提出的MTCSSDN算法达到了最佳ROC曲线，AUC值为0.793。图5(b)显示出了消融实验中不同算法的ROC曲线和相应的AUC值。所提出的算法在肺腺癌数据集上再次达到最佳ROC曲线和AUC值。通过实验分析证明了本文算法架构对于肺腺癌分类的有效性。

图5 不同算法的ROC曲线与肺腺癌数据集上相应的AUC值

3、讨论和结论

针对肺腺癌分类问题，本文提出一种多任务对比自监督双通道网络算法。该算法将3D CNN和Transformer两种不同架构的网络结合，同时学习图像的局部特征和全局表示，并加入对比学习，以此来增强辅助任务和下游分类任务的关联性。本文在收集的数据集上进行实验，验证了算法的有效性。结果表明，本文提出的多任务对比自监督双通道网络算法在分类准确率上比传统的CNN方法有所提高，且与其他自监督方法相比，本文算法在各项指标中均有提升，具有一定的研究意义和临床应用价值。

本研究仍然存在一定的局限性：深度学习模型是数据驱动的，559个肺腺癌的单中心数据集对于深度学习模型仍然不足，导致模型泛化性能不强，后续需要采集更多的数据或使用更多的数据增广方式用来训练模型以解决解这一问题。在多任务自监督学习和对比自监督学习的消融实验中，两者结合的方法准确率提升不高。这是由于网络参数在不同任务的优化过程中存在差异性，从辅助任务中得到的预训练模型迁移至下游任务的过程中含有不确定性。未来的工作将探索对损失函数分配不同的权重来消除这种差异性。

参考文献:

[4]郑光远,刘峡壁,韩光辉.医学影像计算机辅助检测与诊断系统综述[J].软件学报,2018,29(5):1471-1514.

[14]贡荣麟,施俊,周玮珺,等.面向乳腺超声计算机辅助诊断的两阶段深度迁移学习[J].中国图象图形学报,2022,27(3):898-910.

文章来源:赵娜娜,韩向敏,王祥,等.基于多任务对比自监督双通道网络的肺腺癌CT图像分类[J].北京生物医学工程,2024,43(05):478-485.