摘要:影像组学是一种挖掘医学影像特征的学科,它可从标准的医学影像中提取高通量定量数据特征来描述肿瘤信息,并为临床实践提供决策支持。为了预测肿瘤转移风险,分析了来自三个机构的197例头颈癌患者接受治疗前的FDGPET和CT信息,使用影像组学相关方法对每例患者提取了100多个放射学特征,并以此为特征来预测其局部复发(LR)和远处转移风险(DM)。在预测模型构建时,使用机器学习算法,以其中两个机构提供的数据作为训练集,剩余机构的数据作为独立测试集。在独立测试集上的测试结果显示:预测局部复发时使用支持向量机(SVM),其精确度达到了79%;预测远处转移时使用随机森林(RF),其精确度达到了78%。使用该方法可以对头颈癌进行辅助诊断并对患者进行更好的个性化治疗。
加入收藏
头颈癌(HNC)是指上消化道和呼吸道的一系列恶性肿瘤[1],绝大多数HNC病例都发生在亚洲[2]。其中最常见的为上皮出现的恶性肿瘤,即鳞状细胞癌;此外,还会有部分肿瘤出现在间质、神经和其他细胞。长期以来,吸烟和饮酒被认为是头颈部鳞状细胞癌(HNSCC)发生的主要因素。人乳头瘤病毒(HPV)也被发现是口咽鳞状细胞癌发生的主要因素[3]。
在头颈癌的护理方面,一般的做法是针对不同的患者定制不同的治疗方法及选择最佳药物[4],即精准肿瘤学方法。目前,精准肿瘤学相关研究都集中在使用基于基因组学的方法对肿瘤进行分子表征[5]。这种方法可以依据肿瘤的分子结构预测其复发性、转移性以及发现罕见癌症[6]。但是,该方法需要通过肿瘤活检提取组织,而肿瘤在空间和时间上都是异质性的,为了获得肿瘤的分子异质性,常常需要重复肿瘤活检,这增加了患者的风险[7]。
影像组学提供了一种从临床图像中提取定量成像特征的方法[8]。该方法提取的特征通常被用于统计模型,并且已经在多种肿瘤位置和成像模式中取得了成功。使用该方法的研究人员须先选择软件来分割肿瘤[或其他感兴趣区域(ROI)],提取定量图像特征,并分析结果[9]。显然,这种方法需要经验丰富的放射科医生或放射肿瘤科医生,而这一过程不但很耗费放射科医师的人力,而且人工分割感兴趣区域具有可变性,在提取放射性特征时会引入偏差[10]。
正电子发射断层扫描(PET)具有很高的敏感性和特异性,在癌症成像和治疗中发挥着重要作用[11,12]。结合计算机断层扫描(CT),PET可以为大多数癌症提供有价值的信息[13]。鉴于此,本文将PET图像和CT图像相结合并采用影像组学的方法对图像提取放射学特征,结合机器学习算法对头颈癌的局部复发和远处转移进行了预测,对患者的预后具有一定的帮助。
1、方法及特征提取
1.1数据集
本研究中的数据集是通过检索公开可用的癌症成像档案(TCIA)数据库得到的。采用了来自3个不同机构的共计197例HNC患者的影像学数据进行模型建立和评估。其中,HNC1数据集由65名在加拿大蒙特利尔大学中心医院(CHUM)接受头颈鳞状细胞癌(HNSCC)治疗的患者组成。HNC2数据集由91名在加拿大蒙特利尔犹太医院(HGJ)接受头颈鳞状细胞癌(HNSCC)治疗的患者组成。HNC3数据集由41名在加拿大蒙特利尔新罗塞蒙特医院(HMR)接受治疗的头颈鳞状细胞癌(HNSCC)患者组成[14]。本次实验将HNC1和HNC2作为训练集、HNC3作为独立测试集对所建模型进行评估。数据集部分信息如表1所示。
表1数据集部分信息
1.2工作流程
本文工作大致分为3个阶段:图像处理阶段、特征提取阶段和风险预测阶段。流程图如图1所示。
(1)图像处理阶段。大部分使用影像组学手段分析肿瘤时,都会在图形处理阶段选择人工手绘的方法将肿瘤区域绘制出来。这种做法不仅效率低,而且在肿瘤存在模糊边界时,不同医师或研究员很难绘制出相同或相似的目标区域。到前为止,还没有一个适用于所有医学图像的自动分割算法[15],能使描绘区域或分割区域有很高的重复性。Cheebsumon等的研究表明,从PET图像中得到的肿瘤轮廓的最大直径与病理学更接近[16]。因此,本文使用PET图像确定感兴趣区域(ROI)。
(2)特征提取阶段。影像组学手段的关键部分是定量的图像特征提取。提取到的图像特征描述了感兴趣区域内图像的体积、灰度区域分布情况以及各种纹理信息。当特征的数量非常庞大且非常复杂时,会导致过度拟合的风险[17]。本文选择一阶统计特征、形状特征以及三维纹理特征作为图像特征。
(3)风险预测阶段。风险预测模型通常采用机器学习算法,包括K近邻算法(KNN)、支持向量机(SVM)、随机森林算法(RF)和逻辑回归算法(LR)等。本文分别建立了以KNN、SVM和RF算法为分类器的预测模型,并对比模型性能,选择性能最好的作为最终预测模型。
图1工作流程
1.3放射学特征提取
将原始的PET图像经过二值化和放大之后,作为CT图像的ROI,然后提取ROI内的CT图像的共计107个影像组学特征。这些特征可以分为3个不同的类别:1)一阶统计特征(强度)18个,通过对ROI内CT图像的强度分布直方图计算得到;2)形态特征(形状)14个,描述了ROI内CT图像的几何特征;3)纹理特征75个,通过定量描述ROI内不同强度的空间分布来刻画ROI内的CT图像,其中包括灰度共生矩阵(GLCM)、灰度级行程矩阵(GLRLM)、灰度级区域矩阵(GLSZM)、邻域灰度差矩阵(NGTDM)和灰度依赖矩阵(GLDM)[18]。
1.4不均衡数据处理
在一个分类问题中,如果某些类的实例数量比其他类多很多,就会导致类不均衡问题。此时,对于比例大的样本,一般的分类器会出现过拟合的情况:为提升整体准确率而忽略了小类别的召回率。这类问题,包括欺诈/入侵检测、风险管理、文本分类和医疗诊断/监控等[19],在实际应用中很普遍。本文使用的训练集也出现了类似情况(总样本156例,局部复发19例,远处转移19例)。为了减少数据类别不均衡造成的模型泛化能力差的问题,常采用一些方法对数据进行均衡化。简单的方法有随机过采样和随机欠采样等,复杂的方法有Tomeklinks[20]、CNN[21]、NCL[22]和Somte[23]等。Batista等[24]的研究表明使用Smote+Tomek或Smote+ENN的方法在不均衡数据集上能得到分类性能较为出色分类器。因此,本文采用Smote+ENN对训练集样本进行重新采样,使用得到的新数据训练模型。
2、模型及评估
Vapnik等于1982年首次提出支持向量机(SVM)的概念[25],Kim等将其应用于医疗图像的结果表明该方法在医疗图像分类预测方面也具有可行性[26]。随机森林(RF)是由Breiman于2001年提出的一种高度灵活的机器学习算法[27,28],它运用集成学习的思想将多棵决策树的预测结果融合得到最终结果。目前,该方法被大量应用于医疗领域,包括分析核磁共振(MRI)图像[29]、药物发现[30]等。K近邻(KNN)算法由于实现简单、性能优越而在数据挖掘和机器学习中得到了广泛的应用[31]。本文使用上述3种算法分别建立模型对头颈癌局部复发和远处转移进行预测。模型建立过程如图2所示。
首先划分数据集,将CHUM和HGJ作为训练集,将HMR作为独立测试集;然后分别提取训练集和测试集的放射学特征及其对应的标签。在训练模型时,将训练集特征输入到机器学习算法中,通过使用留一法不断调整算法参数,最终得到在测试集上表现良好的模型。
图2建立模型过程
为了更好地量化模型性能,便于调整模型参数,这里引入了几个性能指标,包括准确度(ACC)、灵敏度(SEN)、特异性(SPE)、马修斯相关系数(MCC)和接收器操作特征曲线下的面积(AUC)。SEN、SPE和MCC的定义如下:
公式1
公式2
公式3
这里,R是真正例(truepositive),表示通过模型正确预测头颈癌发生转移的数量;B是真负例(truenegative),表示通过模型正确预测头颈癌未发生转移的数量;N是假正例(falsepositive),表示通过模型错误预测头颈癌发生转移的数量;W是假负例(falsenegative),表示通过模型错误预测头颈癌未发生转移的数量。
分别在训练集上使用这3个算法作为预测模型,性能如表2所示。从表2可以看出:经过数据平衡化之后,各模型在训练集上的性能都不错。为了验证它们的预测性能是否跟其在训练集上所表现的一样可靠,将它们分别作用在测试集上。结果如表3所示。
表3显示:在预测局部复发时,SVM和KNN的性能评分很接近。考虑到SVM的泛化能力及其特异性比较好,本文选择SVM作为最终预测局部复发的模型;在预测远处转移时,尽管RF的特异性不算太高,但其综合性能较好,故选择RF作为最终预测远处转移的模型。
表2训练集各模型性能评估
表3测试集模型性能评估
3、结论
本文采用PET图像轮廓作为ROI,通过影像组学的方法提取ROI内的CT图像特征,并对比了SVM、RF和KNN3种机器学习算法在该特征上的表现。结果显示该方法是可行的。此外,该方法提取ROI的过程不需要放射肿瘤学专家手动绘制,这使得这一过程的重复性较好。目前,医学图像的自动分割算法还不太成熟,利用该方法取代自动分割算法,可以达到对目标区域提取特征的目的。
虽然测试结果表明该方法可行性很高,但也出现了一些问题,如特异性总体来讲不高。通过分析数据集、特征提取流程以及建立模型过程发现:本数据集是针对头颈部扫描得到的。而大脑部位的代谢活跃度较高,这使得PET图像二值化的时候会将脑部区域也算入肿瘤区域,增加了特征提取时的噪声,该噪声可能会影响风险预测的准确性。
此外,本方法还有一定的局限性。首先,由于本研究中实验对象的数量不大,只能猜测该方法在不同的数据集中具有良好的泛化能力;其次,实验仅对头颈癌转移风险进行了预测,并没有对转移时间、转移部位以及存活期等方面进行详细预测。在未来的研究中将改善这些局限性,并尝试将该方法应用到其他部位肿瘤的预测中。
参考文献:
[1]杨雪蓝,席淑新.头颈癌特异性症状评估工具的研究进展[J].中华护理杂志,2019,54(4):609-614.
余堃.利用机器学习方法预测头颈癌转移风险[J].新乡学院学报,2020,37(06):21-25+50.
基金:国家自然科学基金青年基金项目(11601130)
分享:
耳源性脑脓肿(otogenicbrainabscess,OBA)是颞骨胆脂瘤和化脓性中耳炎的严重并发症,其中以胆脂瘤并发最为常见。从神经外科的角度看,大脑脓肿分为耳源性和非耳源性,而绝大多数是耳源性(80%)。小脑脓肿则几乎均为耳源性,耳源性脑脓肿多发生于颞叶脓肿,其次为小脑。OBA以其病情重,可致死等特点而闻名。
2025-09-01颅内动脉瘤是由颅内局部动脉壁内部弹性层变薄、丧失等异常变化所引发的动脉壁病理性扩张瘤样突出,死亡率为25%~30%,且老年人死亡率可达80%。因此寻找与颅内动脉瘤破裂相关的生物学标志物对其具有一定预警作用。
2025-08-23头颈部肿物是头颈部病变的一个体表特征,缘于头颈部解剖结构相对复杂,血供丰富,位于头颈部的大部分病变均可在头颈部形成富血供肿块[1]。单纯外科手术时常常因出血量大而变的非常棘手。为了减轻创伤,有利于手术完成,术前行超选择性血管介入治疗可有效减少术中出血量及缩短手术时间[2]。
2025-08-06脑白质病变(whitematterlesions,WML)是脑小血管病(cerebralsmallvesseldisease,CSVD)最常见的影像学表现类型之一。WML患者临床上常表现为认知功能障碍、情绪异常、步态异常、排尿障碍等,严重影响患者的健康及生活质量,而重度WML还与缺血性事件的发生及其预后密切相关,与首次缺血事件后的长期生存相关。
2025-07-30受个体差异及病情复杂性影响,患者选择手术方式时不仅需综合评估个人病情和治疗需求,也要考虑各术式的治疗效果、预后、后续治疗以及手术对个人工作生活的影响等。患者在手术方式选择上的犹豫,会进一步加大治疗决策的难度。在此过程中,识别并满足患者参与治疗决策的信息需求对提升医疗服务质量意义重大。
2025-07-29甲状腺癌是内分泌系统最常见的肿瘤,占头颈部肿瘤首位,占所有恶性肿瘤的2.3%。其发病率在世界范围呈上升趋势。我国流行病学资料也显示,甲状腺癌的发病率在逐年上升,尤以中青年女性多见。其中乳头状癌最常见,分化程度高,恶性程度最小,占全部甲状腺癌的87.8%[1]。
2025-07-04淋巴管畸形是淋巴系统变异引起的脉管源性良性病变,发病率为1/4000~1/2000,可发生于任何年龄,但80%~90%的病例发生在2岁以内,约占婴幼儿良性肿瘤的5%。其发病部位广泛,75%~80%的病例累及头颈颌面部。在儿童头颈颌面部淋巴管畸形的影像学诊断中,较常用的方式为超声、计算机断层扫描(CT)、磁共振成像(MRI)。MRI是最有价值的检查方式。
2025-06-30老年脑肿瘤是一种常见且具有挑战性的疾病,随着人口老龄化趋势的加剧,老年脑肿瘤的发病率逐渐增加,手术切除为该病常用的治疗手段。但由于老年患者身体状况的特殊性,手术相对复杂,术后会发生手术相关并发症、术后功能障碍、认知功能下降等不良结局,威胁患者健康和生命安全。
2025-06-21近年来人类在治疗恶性肿瘤方面已取得较大进展,基因治疗、免疫治疗等新方法较传统手术、放化疗方法有较大优势,但临床上大部分HNSCC患者在初诊时已是中晚期,在针对头颈部恶性肿瘤时,大多数医疗机构的常规治疗方法仍是手术治疗、放疗及化疗,患者的预后并不理想,5年生存率仍然很低,这一现象令人深感担忧。
2025-05-28目前,以利妥昔单抗、环磷酰胺、多柔比星、长春新碱及泼尼松为主的RCHOP方案是治疗初诊DLBCL的首选一线治疗方案。虽然该方案在临床上显示出显著疗效,但仍有30%-40%的患者难以治疗或一线治疗缓解后复发,进而发展为复发难治DLBCL(RRDLBCL)[3-4]。RRDLBCL患者的治疗方案尚未明确。
2025-05-26人气:19290
人气:18219
人气:17612
人气:17203
人气:16629
我要评论
期刊名称:肿瘤研究与临床
期刊人气:3026
主管单位:国家卫生健康委员会
主办单位:中华医学会,山西省肿瘤研究所,山西省肿瘤医院
出版地方:山西
专业分类:医学
国际刊号:1006-9801
国内刊号:11-5355/R
邮发代号:22-137
创刊时间:1986年
发行周期:月刊
期刊开本:大16开
见刊时间:10-12个月
影响因子:1.474
影响因子:2.876
影响因子:0.899
影响因子:0.000
影响因子:2.153
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!