91学术服务平台

您好,欢迎来到91学术官网!站长邮箱:91xszz@sina.com

发布论文

论文咨询

头颈癌借助机器学习方法预测转移风险研究

  2020-07-11    378  上传者:管理员

摘要:影像组学是一种挖掘医学影像特征的学科,它可从标准的医学影像中提取高通量定量数据特征来描述肿瘤信息,并为临床实践提供决策支持。为了预测肿瘤转移风险,分析了来自三个机构的197例头颈癌患者接受治疗前的FDGPET和CT信息,使用影像组学相关方法对每例患者提取了100多个放射学特征,并以此为特征来预测其局部复发(LR)和远处转移风险(DM)。在预测模型构建时,使用机器学习算法,以其中两个机构提供的数据作为训练集,剩余机构的数据作为独立测试集。在独立测试集上的测试结果显示:预测局部复发时使用支持向量机(SVM),其精确度达到了79%;预测远处转移时使用随机森林(RF),其精确度达到了78%。使用该方法可以对头颈癌进行辅助诊断并对患者进行更好的个性化治疗。

  • 关键词:
  • 个性化治疗
  • 头颈癌
  • 头颈肿瘤
  • 影像组学
  • 机器学习
  • 风险预测
  • 加入收藏

头颈癌(HNC)是指上消化道和呼吸道的一系列恶性肿瘤[1],绝大多数HNC病例都发生在亚洲[2]。其中最常见的为上皮出现的恶性肿瘤,即鳞状细胞癌;此外,还会有部分肿瘤出现在间质、神经和其他细胞。长期以来,吸烟和饮酒被认为是头颈部鳞状细胞癌(HNSCC)发生的主要因素。人乳头瘤病毒(HPV)也被发现是口咽鳞状细胞癌发生的主要因素[3]。

在头颈癌的护理方面,一般的做法是针对不同的患者定制不同的治疗方法及选择最佳药物[4],即精准肿瘤学方法。目前,精准肿瘤学相关研究都集中在使用基于基因组学的方法对肿瘤进行分子表征[5]。这种方法可以依据肿瘤的分子结构预测其复发性、转移性以及发现罕见癌症[6]。但是,该方法需要通过肿瘤活检提取组织,而肿瘤在空间和时间上都是异质性的,为了获得肿瘤的分子异质性,常常需要重复肿瘤活检,这增加了患者的风险[7]。

影像组学提供了一种从临床图像中提取定量成像特征的方法[8]。该方法提取的特征通常被用于统计模型,并且已经在多种肿瘤位置和成像模式中取得了成功。使用该方法的研究人员须先选择软件来分割肿瘤[或其他感兴趣区域(ROI)],提取定量图像特征,并分析结果[9]。显然,这种方法需要经验丰富的放射科医生或放射肿瘤科医生,而这一过程不但很耗费放射科医师的人力,而且人工分割感兴趣区域具有可变性,在提取放射性特征时会引入偏差[10]。

正电子发射断层扫描(PET)具有很高的敏感性和特异性,在癌症成像和治疗中发挥着重要作用[11,12]。结合计算机断层扫描(CT),PET可以为大多数癌症提供有价值的信息[13]。鉴于此,本文将PET图像和CT图像相结合并采用影像组学的方法对图像提取放射学特征,结合机器学习算法对头颈癌的局部复发和远处转移进行了预测,对患者的预后具有一定的帮助。


1、方法及特征提取


1.1数据集

本研究中的数据集是通过检索公开可用的癌症成像档案(TCIA)数据库得到的。采用了来自3个不同机构的共计197例HNC患者的影像学数据进行模型建立和评估。其中,HNC1数据集由65名在加拿大蒙特利尔大学中心医院(CHUM)接受头颈鳞状细胞癌(HNSCC)治疗的患者组成。HNC2数据集由91名在加拿大蒙特利尔犹太医院(HGJ)接受头颈鳞状细胞癌(HNSCC)治疗的患者组成。HNC3数据集由41名在加拿大蒙特利尔新罗塞蒙特医院(HMR)接受治疗的头颈鳞状细胞癌(HNSCC)患者组成[14]。本次实验将HNC1和HNC2作为训练集、HNC3作为独立测试集对所建模型进行评估。数据集部分信息如表1所示。

表1数据集部分信息

1.2工作流程

本文工作大致分为3个阶段:图像处理阶段、特征提取阶段和风险预测阶段。流程图如图1所示。

(1)图像处理阶段。大部分使用影像组学手段分析肿瘤时,都会在图形处理阶段选择人工手绘的方法将肿瘤区域绘制出来。这种做法不仅效率低,而且在肿瘤存在模糊边界时,不同医师或研究员很难绘制出相同或相似的目标区域。到前为止,还没有一个适用于所有医学图像的自动分割算法[15],能使描绘区域或分割区域有很高的重复性。Cheebsumon等的研究表明,从PET图像中得到的肿瘤轮廓的最大直径与病理学更接近[16]。因此,本文使用PET图像确定感兴趣区域(ROI)。

(2)特征提取阶段。影像组学手段的关键部分是定量的图像特征提取。提取到的图像特征描述了感兴趣区域内图像的体积、灰度区域分布情况以及各种纹理信息。当特征的数量非常庞大且非常复杂时,会导致过度拟合的风险[17]。本文选择一阶统计特征、形状特征以及三维纹理特征作为图像特征。

(3)风险预测阶段。风险预测模型通常采用机器学习算法,包括K近邻算法(KNN)、支持向量机(SVM)、随机森林算法(RF)和逻辑回归算法(LR)等。本文分别建立了以KNN、SVM和RF算法为分类器的预测模型,并对比模型性能,选择性能最好的作为最终预测模型。

图1工作流程

1.3放射学特征提取

将原始的PET图像经过二值化和放大之后,作为CT图像的ROI,然后提取ROI内的CT图像的共计107个影像组学特征。这些特征可以分为3个不同的类别:1)一阶统计特征(强度)18个,通过对ROI内CT图像的强度分布直方图计算得到;2)形态特征(形状)14个,描述了ROI内CT图像的几何特征;3)纹理特征75个,通过定量描述ROI内不同强度的空间分布来刻画ROI内的CT图像,其中包括灰度共生矩阵(GLCM)、灰度级行程矩阵(GLRLM)、灰度级区域矩阵(GLSZM)、邻域灰度差矩阵(NGTDM)和灰度依赖矩阵(GLDM)[18]。

1.4不均衡数据处理

在一个分类问题中,如果某些类的实例数量比其他类多很多,就会导致类不均衡问题。此时,对于比例大的样本,一般的分类器会出现过拟合的情况:为提升整体准确率而忽略了小类别的召回率。这类问题,包括欺诈/入侵检测、风险管理、文本分类和医疗诊断/监控等[19],在实际应用中很普遍。本文使用的训练集也出现了类似情况(总样本156例,局部复发19例,远处转移19例)。为了减少数据类别不均衡造成的模型泛化能力差的问题,常采用一些方法对数据进行均衡化。简单的方法有随机过采样和随机欠采样等,复杂的方法有Tomeklinks[20]、CNN[21]、NCL[22]和Somte[23]等。Batista等[24]的研究表明使用Smote+Tomek或Smote+ENN的方法在不均衡数据集上能得到分类性能较为出色分类器。因此,本文采用Smote+ENN对训练集样本进行重新采样,使用得到的新数据训练模型。


2、模型及评估


Vapnik等于1982年首次提出支持向量机(SVM)的概念[25],Kim等将其应用于医疗图像的结果表明该方法在医疗图像分类预测方面也具有可行性[26]。随机森林(RF)是由Breiman于2001年提出的一种高度灵活的机器学习算法[27,28],它运用集成学习的思想将多棵决策树的预测结果融合得到最终结果。目前,该方法被大量应用于医疗领域,包括分析核磁共振(MRI)图像[29]、药物发现[30]等。K近邻(KNN)算法由于实现简单、性能优越而在数据挖掘和机器学习中得到了广泛的应用[31]。本文使用上述3种算法分别建立模型对头颈癌局部复发和远处转移进行预测。模型建立过程如图2所示。

首先划分数据集,将CHUM和HGJ作为训练集,将HMR作为独立测试集;然后分别提取训练集和测试集的放射学特征及其对应的标签。在训练模型时,将训练集特征输入到机器学习算法中,通过使用留一法不断调整算法参数,最终得到在测试集上表现良好的模型。

图2建立模型过程

为了更好地量化模型性能,便于调整模型参数,这里引入了几个性能指标,包括准确度(ACC)、灵敏度(SEN)、特异性(SPE)、马修斯相关系数(MCC)和接收器操作特征曲线下的面积(AUC)。SEN、SPE和MCC的定义如下:

公式1

公式2

公式3

这里,R是真正例(truepositive),表示通过模型正确预测头颈癌发生转移的数量;B是真负例(truenegative),表示通过模型正确预测头颈癌未发生转移的数量;N是假正例(falsepositive),表示通过模型错误预测头颈癌发生转移的数量;W是假负例(falsenegative),表示通过模型错误预测头颈癌未发生转移的数量。

分别在训练集上使用这3个算法作为预测模型,性能如表2所示。从表2可以看出:经过数据平衡化之后,各模型在训练集上的性能都不错。为了验证它们的预测性能是否跟其在训练集上所表现的一样可靠,将它们分别作用在测试集上。结果如表3所示。

表3显示:在预测局部复发时,SVM和KNN的性能评分很接近。考虑到SVM的泛化能力及其特异性比较好,本文选择SVM作为最终预测局部复发的模型;在预测远处转移时,尽管RF的特异性不算太高,但其综合性能较好,故选择RF作为最终预测远处转移的模型。

表2训练集各模型性能评估

表3测试集模型性能评估


3、结论


本文采用PET图像轮廓作为ROI,通过影像组学的方法提取ROI内的CT图像特征,并对比了SVM、RF和KNN3种机器学习算法在该特征上的表现。结果显示该方法是可行的。此外,该方法提取ROI的过程不需要放射肿瘤学专家手动绘制,这使得这一过程的重复性较好。目前,医学图像的自动分割算法还不太成熟,利用该方法取代自动分割算法,可以达到对目标区域提取特征的目的。

虽然测试结果表明该方法可行性很高,但也出现了一些问题,如特异性总体来讲不高。通过分析数据集、特征提取流程以及建立模型过程发现:本数据集是针对头颈部扫描得到的。而大脑部位的代谢活跃度较高,这使得PET图像二值化的时候会将脑部区域也算入肿瘤区域,增加了特征提取时的噪声,该噪声可能会影响风险预测的准确性。

此外,本方法还有一定的局限性。首先,由于本研究中实验对象的数量不大,只能猜测该方法在不同的数据集中具有良好的泛化能力;其次,实验仅对头颈癌转移风险进行了预测,并没有对转移时间、转移部位以及存活期等方面进行详细预测。在未来的研究中将改善这些局限性,并尝试将该方法应用到其他部位肿瘤的预测中。


参考文献:

[1]杨雪蓝,席淑新.头颈癌特异性症状评估工具的研究进展[J].中华护理杂志,2019,54(4):609-614.


余堃.利用机器学习方法预测头颈癌转移风险[J].新乡学院学报,2020,37(06):21-25+50.

基金:国家自然科学基金青年基金项目(11601130)

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

加载更多

我要评论

肿瘤研究与临床

期刊名称:肿瘤研究与临床

期刊人气:3026

期刊详情

主管单位:国家卫生健康委员会

主办单位:中华医学会,山西省肿瘤研究所,山西省肿瘤医院

出版地方:山西

专业分类:医学

国际刊号:1006-9801

国内刊号:11-5355/R

邮发代号:22-137

创刊时间:1986年

发行周期:月刊

期刊开本:大16开

见刊时间:10-12个月

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定