首页 > 论文范文 > 医药卫生论文 > 基础医学论文 > 病理学论文 > 人工智能的H-E染色全切片病理学图像分析在肺癌中的研究

人工智能的H-E染色全切片病理学图像分析在肺癌中的研究

2024-04-19 92 上传者：管理员

摘要：病理学是疾病诊断的金标准。利用全切片扫描技术将病理切片转化为数字图像后，人工智能特别是深度学习模型在病理学图像分析领域展现出了巨大潜力。人工智能在肺癌全切片扫描中的应用涉及组织病理学分型、肿瘤微环境分析、疗效及生存预测等多个方面，有望辅助临床进行精准治疗决策。然而标注数据不足、切片质量差异等因素也限制了病理学图像分析的发展。本文总结了肺癌领域利用人工智能手段进行病理学图像分析的应用进展，并对未来发展方向进行展望。

关键词：
WSI
人工智能
全切片扫描
卷积神经网络
肺癌
加入收藏

全切片扫描（whole slide imaging,WSI）是采用数字扫描仪扫描传统的病理切片，采集高分辨率数字图像，再通过计算机将碎片化图像进行无缝拼接整合，制作成为整张数字图像的一项技术[1]。病理科医师可以像使用显微镜那样在计算机屏幕上对数字图像进行任意比例的放大、缩小及任意方向的移动浏览，并进行进一步分析，所以WSI也被称为“虚拟显微镜”。有研究[2]证实，通过WSI获得的病理学诊断与采用传统显微镜诊断的一致性很好。2021年9月，美国食品药品管理局（Food and Drug Administration,FDA）批准了第1个人工智能（artificial intelligence,AI）病理学诊断系统，用于在前列腺病理学图像中识别可疑病灶，可以帮助病理科医师发现微小的肿瘤区域[3]。WSI图像具有以下特征：(1)数据量大，1 张WSI图像可达到100 k×100 k像素；(2) WSI是反映真实色彩的二维图像，与计算机体层成像（computed tomography,CT）、磁共振成像（magnetic resonance imaging,MRI）及正电子发射CT(positron emission tomography and CT,PET/CT）等黑白或伪彩色的三维医学影像数据不同；(3)图像不反映明显的解剖方向和大体位置，可通过旋转进行图像增强；(4)组织切片有一定厚度，在不同焦面上扫描会获得不同的图像。

随着WSI技术的发展，AI越来越多地应用于病理学图像分析，卷积神经网络（convolutional neural network,CNN）在WSI图像分析领域有显著优势。肺癌是一种异质性很大的疾病。不同分期、分级和组织学类型肺癌的治疗方案与患者预后有很大差异。组织切片是对肿瘤及周围组织形态结构的直接反映，组织病理学是肿瘤诊断和分型的金标准，病理学图像中蕴藏着丰富的肿瘤生物学信息，而常规病理学报告仅能针对细胞和组织形态特征进行有限的概括性分类，对特异性染色图像如一些定量生物标志物的免疫组织化学（immunohistochemical,IHC）染色定量判读也容易受到病理科医师的主观影响，机构间、人员间、甚至是同一人重复判读的结果差异很大。机器学习特别是深度神经网络可以广泛学习病理学图像中的特征，基于大数据模型给出客观的诊断，对特异性染色图像进行自动定量分析，还可以提取肿瘤微环境中的特征来分析肿瘤与微环境的相互作用关系。近年来病理学图像分析领域受到越来越多的关注。本文对肺癌领域应用AI分析WSI图像的研究进行综述，包括组织病理学分型、肿瘤微环境分析、疗效及生存预测等，并探讨AI应用于WSI分析的不足及未来的发展方向。

1、诊断

1.1 组织病理学分型判断

组织学分类是肺癌病理学诊断中最重要的任务，肺癌在组织学上分为小细胞肺癌（small cell lung cancer,SCLC）和非小细胞肺癌（nonsmall cell lung cancer,NSCLC）两大类，NSCLC又包括腺癌、鳞状细胞癌、大细胞神经内分泌癌（large cell neuroendocrine carcinoma,LCNEC）及一些其他较少见的类型，其中以腺癌和鳞状细胞癌占比最高。Coudray等[4]利用癌症基因组图谱（The Cancer Genome Atlas,TCGA）数据库中1 635例包含正常肺组织、肺腺癌和肺鳞状细胞癌的术中快速冷冻切片病理学检查H-E染色WSI图像，训练了一个Inception V3深度神经网络，其识别腺癌与鳞状细胞癌的受试者工作特征（receiver operating characteristic,ROC）曲线的曲线下面积（area under curve,AUC）达到了0.97，在一个包含活检标本、手术标本的冷冻及石蜡包埋组织切片在内的共340张WSI图像外部测试集上区分腺癌和鳞状细胞癌的AUC也达到0.832～0.977。Zhao等[5]设计了一个多分辨率最大期望CNN模型，模拟病理科医师的诊断过程，首先利用不同分辨率的图像选取WSI图像中的代表性图像块，再进行腺癌与鳞状细胞癌的分类，取得了很好的效果。Khader等[6]训练了一个级联交叉注意力网络二分类模型，用于执行TCGA数据库中的肺腺癌与鳞状细胞癌分类任务，发现级联交叉注意力网络模型优于多示例学习迁移模型，并且在仅利用较少样本训练时，级联交叉注意力网络就能取得很好的效果，此外注意力机制还能够为模型提供一定的可解释性。

Yang等[7]基于Efficient Net-B5和Res Net-50网络建立了一个肺组织病理学六分类模型，其任务为区分腺癌、鳞状细胞癌、SCLC、肺结核、机化性肺炎和正常肺组织。该模型使用741张WSI图像作为训练集，使用来自不同医疗中心4个队列的1 067张切片作为外部测试集，在4个测试集上的AUC分别达到0.970、0.918、0.963和0.978，表明在同时含有肿瘤与非肿瘤的分类任务中，深度学习仍有较好的表现，并且在不同中心队列中泛化性较好，更加贴近临床实际应用场景。

细胞学检查是明确肺癌诊断和分期的重要手段，CT引导或超声支气管镜下的细针抽吸物和胸腔积液是肺癌相关细胞学标本的主要来源，有时可能是病理学标本的唯一来源，近年来也有研究利用AI对细胞病理学图像进行分类，但由于细胞学标本量少且不具备组织结构特征，利用细胞学检查判断肺癌病理学类型是一个较为困难的任务。2017年Teramoto等[8]利用CT引导下细针穿刺和支气管镜获得的细胞学标本进行腺癌、鳞状细胞癌和SCLC的分类，三分类的准确度为71.1%。2022年该团队比较了不同深度学习网络模型判断组织学类型的效果，发现将深度神经网络预测的概率值输入传统的机器学习分类器可以进一步提高预测的准确度[9]。Guan等[10]训练了一个深度神经网络模型用于分类颈部淋巴结细针抽吸细胞学图像，对反应性淋巴结增生、非霍奇金淋巴瘤、鳞状细胞癌转移和腺癌转移四分类的总体准确度达到89.62%。上述研究均提示AI在肺癌细胞学图像分类上也有很大的发展空间。

除了常见的腺癌、鳞状细胞癌及SCLC分类任务之外，近期也有一些研究尝试将深度学习用于神经内分泌肿瘤的分类。肺的神经内分泌肿瘤包括典型类癌、不典型类癌、LCNEC和SCLC，在临床实践中，LCNEC的诊断往往较为困难，特别是小活检标本较少时，需要结合形态学和免疫组织化学综合判断。Yang等[11]比较了4种迁移学习预训练网络模型Res Net15215、VGG1916、Xception17、NASNETLarge和从头训练的CNN模型区分腺癌、鳞状细胞癌、SCLC、L C N E C及非肿瘤性病变的效果，诊断非肿瘤性病变和SCLC的效果较好，而诊断LCNEC的效果较差，与从头训练相比，预训练网络迁移学习在这一特定任务中的表现并无明显优势。Ilié等[12]训练了一个HALO-AI模型用于区分SCLC、LCNEC和不典型类癌，在90例测试集上的F1分数达到0.99，准确度达到0.98(95%CI:0.937～0.999),Kappa值达到0.98，略优于病理科医师的诊断。在细胞学诊断方面，Gonzalez等[13]初步尝试了利用深度学习在细胞学涂片和细胞块H-E图像上区分SCLC和LCNEC，取得了较好的效果，但该研究数据量较小，需要增加样本量进一步验证。

1.2 肺腺癌病理学亚型的判断

2 0 11年国际肺癌研究学会（International Association for the Study of Lung Cancer,IASLC）/美国胸腔学会（American Thoracic Societ y,AT S）/欧洲呼吸学会（E u r o p e a n Respiratory Society,ERS）多学科分类标准[14]将浸润性肺腺癌根据主要生长模式分为5种亚型。2020年IASLC新分级系统将实体、微乳头和复杂腺体结构定义为高级别生长模式，在考虑主要生长模式的同时将高级别成分以20%作为截断值纳入分级系统，将浸润性非黏液腺癌划分为具有显著预后差异的高分化组、中分化组和低分化组[14]，强调少量高级别成分的不良预后意义。由于超过80%的肺腺癌都含有不止一种生长模式，因此准确判断主要生长模式及各生长模式所占比例非常重要。在这方面病理科医师的判断通常主观性较强，存在较大的观察者间差异和观察者内差异，利用AI训练的分类模型则可以按照统一标准进行客观分型。

Wei等[16]构建了一个区分肺腺癌生长模式的CNN，在图像块水平上分为伏壁型、腺泡型、乳头型、微乳头型、实体型和良性6个类别，区分每个类别的AUC均高于0.97，据此判断主要生长模式并与3名病理科医师的判断进行比较，在判断主要生长模式任务中，模型与病理科医师之间的一致性Kappa值达到0.525，高于不同病理科医师之间的一致性，说明利用深度神经网络可以辅助病理科医师更加准确地对肺腺癌生长模式占比进行量化评估。Zhao等[17]对523例非浸润性黏液腺癌图像数据进行像素级别勾画，首先训练了一个基于Res Net-50的生长模式七分类模型（伏壁型、腺泡型、乳头型、微乳头型、实体型、筛孔型及非肿瘤），再给出整张切片各种生长模式及其占比，最终采用归一化折损累计增益方法（normalized discounted cumulative gain,NDCG）评价模型对主要生长模式和其他生长模式判断的准确度，除了腺泡亚型外，模型对于其他亚型判断的AUC均超过0.8,NDCG评分大于75%，模型在识别较小范围生长模式方面的能力优于人工识别。Alsubaie等[18]的模型在图像块水平上进行生长模式分类，对每种生长模式的判断准确度均超过95%，并根据模型判断每张WSI图像上各生长模式的占比，多因素分析显示，微乳头生长模式与伏壁生长模式的比例是5年生存的独立预测因素。Sadhwani等[19]建立了一个图像块水平分类腺癌及不同生长模式的九分类（伏壁型、腺泡型、乳头型、微乳头型、实体型、筛孔型、坏死、白细胞聚集及其他）模型，预测腺泡型和乳头型的AUC分别为0.87和0.78，预测其他类型的AUC均超过0.90。在肺腺癌生长模式的分类任务中，由于不同生长模式经常混杂出现，同一图像块中也可能有多种生长模式共同存在，因此在图像块水平上无法做到完全准确的标注；同时为了尽可能包含不同生长模式具有一定尺度的空间特征，图像块也不宜过小，这是在图像块水平上进行生长模式分类的一个挑战。此外，目前已有的研究致力于学习病理科医师给出的诊断，定量评估每种生长模式所占的比例，而不同生长模式的空间分布是否也反映肿瘤的生物学特性、是否具有临床价值尚有待进一步探索。

1.3 分子改变和程序性死亡蛋白配体-1(programmed death ligand-1,PD-L1）表达的预测

分子改变是肿瘤组织形成特定生长方式的基础，也是形成肿瘤周围微环境的基础，因此分子改变与组织学形态之间存在必然联系。TRACERx研究[20]对肺腺癌不同生长模式的肿瘤区域进行测序，发现不同生长模式的基因突变模式存在显著差异。但这种关联难以通过人工直接观察发现，也难以通过单一指标量化评估，深度学习在分析这种复杂关联性中具有显著优势。随着靶向治疗和免疫检查点抑制剂的应用，肿瘤是否带有靶向治疗敏感突变和PD-L1等分子标志物成为临床上决定治疗方案的重要指标，而相应检测手段操作复杂、耗时长、成本高，因此通过常规病理学图像预测分子标志物成为病理学图像分析的一个重要任务。

Yu等[21]提取Ⅰ期肺腺癌组织图像定量特征，利用传统的机器学习方法，发现细胞质像素强度分布、细胞核纹理等特征与TP53突变状态具有相关性。Coudray等[4]利用H-E染色图像预测肺腺癌中10种最常见的基因突变，发现对其中6个基因[STK11、表皮生长因子受体（epidermal growth factor receptor,EGFR）、FAT1、SETBP1、KRAS、TP53]有较好的预测效果，AUC为0.733～0.856。融合基因检测的金标准是荧光原位杂交，Chen等[22]利用H-E染色病理学图像预测间变性淋巴瘤激酶（anaplastic lymphoma kinase,ALK）和ROS1融合基因，对ALK融合和ROS1融合的预测灵敏度均为100.0%，特异度分别为100.0%和98.6%。另有多项研究[23,24,25,26]利用病理学图像预测ALK融合、KRAS突变、BRAF突变、MET跳跃突变及TP53突变等，证实通过组织病理学图像特征判断分子改变的方式的确具有可行性。肿瘤突变负荷（tumor mutation burden,TMB）和PD-L1表达水平可以作为预测免疫治疗效果的分子标志物。Sadhwani等[18]利用肺腺癌病理学图像预测其TMB，区分高TMB和低TMB组的AUC达到0.72。Sha等[27]训练Res Net18网络利用NSCLC的H-E染色图像预测PD-L1表达水平，模型的AUC达到0.80，此外还发现对腺癌中PD-L1表达的预测效果优于鳞状细胞癌。上述研究均证实AI通过H-E染色病理学图像在预测肺癌的分子标志物方面有较大潜力，但是其预测效能与目前临床中应用的金标准还存在较大差距，尚不具备广泛临床应用的条件。

转录组学数据提供了m RNA水平的基因表达信息，Zheng等[28]根据H-E染色图像预测转录组学中各基因的表达水平，发现预测效能较好的基因集中于炎症反应、细胞周期和低氧相关代谢通路上。根据转录组学中炎症激活通路、细胞增殖通路和细胞分化通路的表达差异，可以将肺腺癌和肺鳞状细胞癌分成不同表型，Yu等[29]训练了一个VGG网络模型，分别基于WSI和RNA测序预测肿瘤的表型类别，发现两者的预测结果显著相关。上述研究结果反映了病理学图像特征与转录水平上的部分信号转导通路的基因表达情况之间的关系。

2、肿瘤微环境分析

肿瘤的诊断和分类往往是端到端的图像分割和分类任务，是一个非常适合CNN的应用场景。而肿瘤微环境分析则是利用图像分类和分割结果量化肿瘤细胞与微环境成分之间的空间分布关系，通过研究微环境的空间分布特征与肿瘤的发生、发展之间的相关性，能够更好地理解肿瘤的生物学特性。

肿瘤微环境由肿瘤细胞、间质细胞、成纤维细胞、免疫细胞、血管内皮细胞及细胞外基质等组成，CD8+T淋巴细胞浸润提示预后良好，而血管生成则与不良预后相关。Saltz等[30]利用标注有淋巴细胞浸润区域和坏死区域的H-E染色切片训练了一个半监督模型，将WSI图像中每个50μm×50μm的图像块分类为肿瘤浸润淋巴细胞（tumor infiltrating lymphcyte,TIL）阳性和阴性的AUC达到0.954 4，通过此方法研究了TCGA数据库里包含肺腺癌和肺鳞状细胞癌在内的13个癌种共计5 455张WSI图像中的TIL分布情况。对每张切片计算TIL阳性图像块的比例，结果显示，胃腺癌、直肠腺癌和肺鳞状细胞癌是TIL阳性区域占比最多的3种肿瘤。该研究还比较了从病理学图像中得到的TIL阳性空间占比与通过转录组学得到的TIL细胞占比，发现两者呈明显正相关，进一步证明了该模型的可靠性。除了TIL占比外，该研究还发现TIL的分布模式与总生存之间也存在明显相关性，但在不同癌种中，与生存具有相关性的TIL分布特征有所不同。

WSI图像中肿瘤微环境研究的主要内容包括肿瘤及周围组织中各种细胞的分布特征、不同种类细胞之间的空间关系以及细胞与组织学类型之间的关系等，而深度神经网络常用于进行细胞核分割和分类任务。Graham等[31]利用像素到质心的水平和垂直距离设计了一个自动细胞核分割CNN模型，并根据分割结果进行细胞核分类，命名为Ho Ver Net，该模型能够有效识别重叠、聚集的多个细胞核。Hou等[32]训练了一个在H-E染色WSI图像中自动分割细胞核的模型，通过多种质量控制手段，对TCGA数据库中10个癌种的5 060张WSI图像进行了高精确度的核分割。Chen等[33]利用Ho Ver Net细胞核分割和分类的结果，研究了从正常肺组织、不典型腺瘤样增生、原位癌发展到微浸润性腺癌、再到浸润性腺癌的过程中，异型上皮细胞、淋巴细胞和其他细胞核的定量空间特征变化规律，发现细胞核空间特征与TMB、基因拷贝数变异及等位基因不平衡具有相关性。以上研究为未来进行基于WSI图像中的可解释特征探索肿瘤发生、发展、治疗及预后等方面的研究创造了条件。

Wang等[34]创建了一个对肺腺癌WSI图像进行自动细胞核分割、分类和特征提取的工具，在训练集和独立测试集中将细胞分为肿瘤细胞、间质细胞和淋巴细胞的准确度分别达到92.9%和90.1%。Wang等的另一项研究[35]训练了一个细胞核六分类模型，分别是肿瘤细胞、基质细胞、淋巴细胞、巨噬细胞、核碎裂和红细胞，随后提取了48个细胞空间分布特征建立预后预测模型，在外部测试集上成功将肺腺癌患者区分为高危组和低危组。此外该研究还发现WSI图像中的细胞空间分布特征与特定代谢通路的表达相关，例如，T细胞受体（T cell receptor,TCR）和程序性死亡蛋白-1(programmed death-1,PD-1）的转录激活通路与肿瘤组织中淋巴细胞的密度呈正相关，细胞外基质通路的表达与基质细胞的密度呈正相关。

Diao等[36]为WSI切片创建了大量的细胞和组织学类型手工标注，在皮肤黑色素瘤、胃癌、乳腺癌、肺腺癌和肺鳞状细胞癌5个肿瘤类别中训练了细胞分类和组织学类型分割CNN模型，将2 826张WSI图像分别分割为肿瘤组织、肿瘤相关基质和坏死区域3个类别，将每张WSI图像中的细胞划分为淋巴细胞、浆细胞、成纤维细胞、巨噬细胞和肿瘤细胞5个类别。利用分类结果提取了涉及细胞分布模式、细胞类型之间关系等在内的607个特征，并基于这些特征对PD-1、PD-L1、细胞毒性T淋巴细胞相关抗原4(cytotoxic T lymphocyte associated antigen-4,CTLA-4）、同源重组修复缺陷（homologous recombination deficiency,HRD）评分及T细胞免疫受体与免疫球蛋白及ITIM结构域（T cell immunoreceptor with Ig and ITIM domains,TIGIT)5种分子的表达进行预测。该研究结果显示，在肺腺癌和肺鳞状细胞癌中，肿瘤组织+肿瘤相关基质中淋巴细胞的数量对PD-1和PD-L1的表达有预测作用，肺腺癌中坏死区域的面积、形态和多形性对PD-1和PD-L1的表达有预测作用，肺腺癌肿瘤相关基质中的成纤维细胞对PD-L1的表达有预测作用，以上结论均可以与既往相关研究的结论相互印证。

3、预后预测

3.1 生存预测

早期的研究尝试利用病理学图像的组学特征，通过传统的机器学习方式进行预后预测。2014年，Wang等[37]就对122张NSCLC的WSI图像进行细胞分割，并提取了166个定量图像特征建立生存预测模型，成功区分出高危组和低危组患者。2016年，Yu等[38]利用Cellprofiler软件从WSI图像中自动提取了9 879个定量图像特征，利用传统的机器学习方法建立肺癌患者生存预测模型，在ⅠB期肺腺癌亚组中能够将患者区分为长生存期和短生存期。Luo等[39]也曾通过肺癌WSI图像中提取的定量图像特征建立生存预测模型，在校正了年龄、性别、吸烟状况和病理学分期后发现定量图像特征仍可以作为生存的一个独立预测因子。Luo等[40]还在不同的肺腺癌队列中验证了WSI图像的定量图像特征对生存的预测能力，结果显示，在两个独立队列中，模型仍可以较好地区分出高危组和低危组患者。

肿瘤细胞本身的生物学特征是决定患者预后的主要因素，肿瘤异质性高往往与不良预后有关，深度学习方法适合提取特征用于分析肿瘤异质性相关特征。Alsubaie等[41]在一个Ⅰ～Ⅲ期肺腺癌WSI数据集中提取肿瘤细胞核的形态、纹理和空间分布特征构建了生存预测模型。Sali等[42]利用一个深度卷积自编码器从肿瘤细胞核中提取细胞核特征，从细胞间异质性和细胞内异质性2个方面评价细胞核的异质性，发现细胞核形态学高度异质性与染色质不稳定和基因组非整倍体相关，并且肿瘤细胞核的异质性是一个独立预后因素。Diao等[43]同时考虑细胞核图像特征和不同细胞类型的空间分布特征，构建了肺腺癌预后预测模型，在五折交叉验证中的C指数达到0.675。Levy-Jurgenson等[44]利用TCGA数据库的肺腺癌石蜡包埋组织切片H-E染色及m RNA和mi RNA表达数据，训练了一个Inception v3分类模型，通过病理学图像预测基因的表达，基于对各分子表达水平的预测值，为每张WSI图像绘制了多重分子表达图谱，并使用信息熵计算肿瘤异质性指数来定量表征肿瘤的异质性，根据肿瘤异质性指数把每张WSI图像分为高异质性组和低异质性组，发现高肿瘤异质性的患者其生存明显较低肿瘤异质性的患者差。

肿瘤免疫微环境与肿瘤细胞的相互作用影响着肿瘤的发生、发展、侵袭和转移，丰富的TIL浸润往往与较好的预后相关，深度学习可以用于量化TIL的数量及分布模式特征，帮助预测患者预后。Pan等[45]利用深度学习分别计算肺腺癌中癌上皮和癌间质中淋巴细胞浸润的丰度，将两者联合构建了淋巴细胞评分，该评分是无病生存期（desease-free survival,DFS）和总生存期（overall survival,OS）的独立预后因素。Shvetsov等[46]优化了Ho Ver Net算法用于TIL检测，该模型显著优于其他TIL检测模型，甚至优于对组织微阵列（tissue microarray,TMA）进行CD8染色的分析结果，将该模型用于一个87例NSCLC患者的队列，模型判断为TIL较多的患者其疾病特异性生存显著优于TIL较少的患者。

3.2 疗效和复发预测

早期NSCLC尽管预后较好，仍有部分患者行根治性切除术后会出现复发，准确识别高复发风险人群并给予针对性的辅助治疗是改善预后的关键。Wang等[47]对早期NSCLC的TMA图像进行自动核分割并从中提取细胞核方向、纹理、形状和肿瘤结构等一系列特征，能够较准确地将患者分类为高复发风险和低复发风险两组，AUC达到0.84，两组的生存曲线存在明显差异。在随后的研究中，Corredor等[48]进一步从早期NSCLC患者的TMA图像中提取了一系列与TIL相关的定量图像特征，包括TIL的空间分布、TIL与肿瘤细胞核的位置关系及TIL群的密度等，将患者分为复发和无复发两类，结果显示，病理学图像中的细胞核特征和TIL分布特征能够预测早期NSCLC的复发风险，有助于在临床工作中更加准确地识别高复发风险患者并有针对性地调整治疗策略。

部分局部晚期NSCLC患者会接受术前新辅助治疗，Terada等[49]利用深度学习方法分析接受新辅助治疗的患者术后标本，预测新辅助治疗后是否达到主要病理学缓解（major pathological response,MPR），预测为MPR组患者的DFS显著优于预测为非MPR组。同期放化疗是局部晚期不可手术NSCLC的标准治疗，Pan等[50]采取两步法训练了一个模型，通过病理学图像预测NSCLC的放化疗效果（二分类：完全缓解+部分缓解vs疾病稳定+疾病进展），首先利用Resnet152网络筛选含有肿瘤的图像块，进而通过Resnet34网络用肿瘤图像块预测放化疗效果，在两个外部验证队列中患者水平分类的准确度均为0.74左右。

激活的T细胞可以分泌干扰素γ(interferonγ,INF-γ），它能够上调PD-L1的表达。Hu等[51]将INF-γ水平作为免疫治疗效果的替代标签，训练了一个利用WSI预测患者接受免疫治疗效果的CNN模型，在独立的NSCLC测试集上A U C达到0.6 4 5，说明该模型有一定的预测能力。但这种使用分子标志物水平作为训练集预后标签的方式是否合理有待进一步验证，使用真实随访数据可能能够进一步提升模型的预测效能。Park等[52]通过分析TIL在NSCLC肿瘤微环境中的分布，定义了免疫炎症型、免疫排斥型和免疫荒漠型，发现在进展期NSCLC患者中，免疫炎症型与局部免疫细胞杀伤活性、治疗有效率及无进展生存期的延长有关。

4、未来方向

4.1 发展弱监督及无监督学习

训练监督学习模型需要大量经过高质量精细标注的数据，而病理切片的标注非常耗时且对专业知识的掌握有非常高的要求；WSI数据量巨大，难以进行精确到像素的标注，大部分标注都是不完全、不确切的；根据训练任务的不同需要的标注内容往往也不同，如标注肿瘤区域、标注不同组织学类型或标注不同细胞类型等[53]。此外，由于不同病理科医师之间的诊断不一致性较高，特别是在较小的肺腺癌组织学亚型分类、前列腺癌的Gleason分级等问题上，很难保证被用作训练集的数据获得的标注是完全正确的。

基于以上考虑，未来的研究也许会更加倾向于采取弱监督学习或无监督学习的方法对WSI图像进行分类。在WSI研究中，“弱监督”一般指的是“切片级的标注”，即将病理学报告中的诊断作为图像的标签，无需手动进行勾画、打标签的操作。Campanella等[54]利用上万张仅带有切片级标注且未经人工筛选的WSI图像训练了CNN-MIL-RNN模型分别用于诊断前列腺癌、乳腺癌淋巴结转移和皮肤基底细胞癌，3个模型的AUC分别达到0.991、0.988和0.966，并且在独立测试集上也达到了非常好的分类效果。在肺癌方面，Xu等[55]利用含有789例腺癌、747例鳞状细胞癌及589例正常组织的WSI数据集，建立了弱监督模型，首先区分肺癌与正常肺组织，AUC达到0.997 8，再从诊断为癌的切片中区分腺癌与鳞状细胞癌，AUC达到0.968 4。弱监督学习或无监督学习方式利用大量的训练数据，节省了手工标注所需的人力和时间成本，未来发展前景十分广阔。

4.2 降低无关因素干扰，增强模型的鲁棒性

训练出一个表现良好的模型会让人倍感振奋，但是当应用外部数据集进行测试时，模型的预测效能可能会出现较大程度的降低。一方面，因为WSI图像的质量受许多因素影响，取材、固定、制片、染色及不同的图像采集设备等都可能造成图像质量的差异，因此使用WSI训练模型前必须通过图像标准化方法进行预处理；另一方面，由于训练数据往往是经过人工筛选的典型图像，实际临床工作中会遇到的制片染色缺陷、玻片上手工标注等情况未包含在内，而AI又极易受到干扰，当测试集中含有上述干扰因素时，模型的预测能力也会大大降低。如能采用大数据量、含有部分干扰的真实世界数据进行训练，或许可以在一定程度上减轻外部干扰带来的影响。另一种解决方案是通过预处理尽量消除干扰因素。有研究[56]发现，由于AI并不知道自己学习到的特征代表什么含义，模型会将医师在皮肤上所做的术前标记作为判断皮肤病变良恶性的依据。因此在输入神经网络之前，通过预处理去除这些病变周围的干扰，可以帮助模型进行正确的预测，但在处理过程中是否会引入一些新的问题尚未可知[57]。

在某些应用场景下，图像之间的差异虽然微小但却十分重要，这时必须教会AI准确地识别这些差异。例如，在一项检测肺癌淋巴结转移的研究中，由于肿瘤淋巴结转移区域与反应性滤泡增生较为类似[58]，所以先通过一个CNN识别出淋巴滤泡，再在剩余图像中进行转移灶的检测。一项分析TIL的研究[30]也发现，淋巴细胞浸润的肿瘤区域和坏死区域的细胞核特征较为相似，因此单独使用了一个CNN来识别坏死区域。针对不同的场景，人类必须及时发现AI的局限性，并采取相应的手段提升AI的表现。

4.3 多通道技术

目前在生物医学领域有不少多通道的新技术逐渐兴起，如循环多重免疫荧光、质谱流式成像等，通过这些技术可以获得远超常规检测手段的高维数据，提供更加丰富的细胞表型分类和空间位置信息，从而对肿瘤微环境的定量空间特征及细胞间相互作用进行更加细致精准的分析。

4.4 多模态信息融合

病理学图像反映了肿瘤在组织学层面上的特征，而影像学特征、基因组学则提供了肿瘤解剖层面和分子层面的信息，将不同模态信息整合起来可以更加完整地描绘肿瘤的特点。例如，有研究[59]结合病理学图像、基因组学和人口学特征信息预测多形性胶质母细胞瘤患者的预后。不同模态信息之间也存在相关性，有研究[60]发现，NSCLC的部分影像学特征与部分病理学特征存在相关关系，而根据影像学图像和病理学图像也可以分别预测EGFR突变状态[4]。不同模态既能提供互补信息，也有部分重复信息，在特征层面进行融合可能会产生大量数据冗余，而决策层面的融合又无法利用不同模态间的交互信息，如何将多模态信息融合共同表征肿瘤的生物学特性，辅助临床医师进行精准诊疗决策是目前研究的关键。

4.5 如何看待当下AI的地位

已有研究大多只针对某一个具体问题，如在肺癌中区分腺癌和鳞状细胞癌或预测特定分子的表达，训练集仅含有经过筛选的某一类特定数据。而实际临床工作场景十分复杂，除了原发性和转移性肿瘤外，还有不同类型的非肿瘤性病变，对于少见病变类型难以找到足够的训练数据。临床中面临的实际问题也难以归纳为一个单纯的分类或分割问题，必须清楚地认识到AI的最终任务并非取代病理科医师，而是辅助病理科医师的工作。在某些重复性很强的任务（如淋巴结转移的判断）中，通过AI预先筛选图像，将大量阴性结果识别出来，在保证100%灵敏度的前提下，可以为病理科医师减少80%～92%的阅片量[61]。虽然AI可以通过H-E图像预测一些生物标志物，但目前临床上相应的检测仍要依靠金标准，而AI可以在部分环节发挥其优势，如对辅助免疫组织化学的定量判读能够给出客观结果，有助于降低观察者间差异[62]。

5、总结

传统的机器学习具有较高的可解释性，容易被临床医师和患者所接受，但在大数据时代，深度学习模型能够学习到高维特征，其性能往往能够随着数据规模的增长而持续提高，从而具备更大的优势。在一些简单任务上现有的深度学习模型通过学习大量训练数据已经能够达到相当好的效果，但是在一些难度较高的任务上，如多种病变类型的区分或基因突变的预测上，利用病理学图像训练的深度学习模型距离临床应用仍有较大差距。同时，深度学习模型在外部测试上的效果会有所降低，说明模型存在一定的过拟合，限制了模型在新数据中的使用。另外，由于病理学图像是一种独特的数据类型，针对特定任务训练的模型往往在该任务上表现较好，但却难以迁移到其他任务上，经过预训练的模型并不总是比从头训练模型效果更好，因此针对不同任务常常需要训练不同的网络模型，增加了时间和数据成本。对此通过模拟实际分析和决策过程搭建网络模型，利用迁移学习和多任务学习的方式为提高学习效率、改善对目标任务的性能提供了可能。

目前，AI手段已经在病理学图像分析领域展现出其优势，在未来发展中需要AI研究者和临床医师开展更加密切的交流合作，针对实际临床应用场景下的关键问题和难点问题开发相应模型，以辅助病理学诊断、临床决策，最终提高患者的个体化精准诊疗水平。

基金资助:国家自然科学基金重大研究计划(92059206);

文章来源:姜梦琦,韩昱晨,傅小龙.基于人工智能的H-E染色全切片病理学图像分析在肺癌研究中的进展[J].中国癌症杂志,2024,34(03):306-315.