给我们留言
91学术服务平台

您好,欢迎来到91学术官网!业务合作:91xueshu@sina.com,站长邮箱:91xszz@sina.com

发布论文

论文咨询

基于随机森林算法的呼吸系统新冠后遗症预测模型的构建与分析

  2024-10-12    49  上传者:管理员

摘要:目的:探讨基于随机森林算法构建的呼吸系统新冠后遗症(PASC)预测模型的效果。方法:选择2022年1月—2023年5月期间于我院住院治疗的新冠感染患者537例作为研究对象。收集患者入院时基本资料、实验室检查结果、住院期间治疗方案等资料。对患者出院后进行为期半年的随访,统计随访期间PASC发生情况并分组,分析两组收集资料之间的差异,并通过多因素logistic回归分析模型和随机森林的集成分类算法对影响PASC发生的相关因素进行预测,并比较两者间预测效能的差异。结果:截至2023年11月30日随访结束,共计537例患者纳入本次研究,共计108例确诊PASC。PASC组患者年龄大于对照组,机械通气、冠心病占比高于对照组,罹患新冠分型及疫苗接种情况差于对照组(P<0.05)。PASC组患者Ly及Ly/Ne低于对照组,IL-6、TNF-α、D二聚体及FIB高于对照组(P<0.05)。年龄、IL-6、TNF-α、D二聚体、FIB、冠心病、未接种新冠疫苗是影响PASC发生的独立危险因素,Ly/Ne、罹患新冠分型为轻、中型是影响PASC发生的独立保护因素(P<0.05)。根据随机森林模型预测精度平均下降量对各变量重要程度排名为:D二聚体、FIB、Ly/Ne、年龄、IL-6、新冠分型、TNF-α、疫苗接种情况及冠心病。使用梯度提升回归算法验证随机森林算法的误差(均方差)筛选最优决策树数量为20棵,并构建预测模型。随机森林的集成分类算法其诊断效能(AUC=0.976)明显高于多因素logistic回归分析(AUC=0.790)。结论:基于随机森林算法构建的PASC预测模型具有较好的预测价值。

  • 关键词:
  • Logistic回归分析
  • 味觉障碍
  • 新冠后遗症
  • 新冠感染后遗症
  • 随机森林算法
  • 加入收藏

新型冠状病毒感染后长期症状又称新冠感染后遗症(post-acute sequelae of COVID-19,PASC),常见于重症感染病例,因其后续的咳嗽、气促、嗅觉和味觉障碍等症状持续时间长,对患者后续工作、生活质量可能造成严重影响[1-2]。而肺部作为COVID-19感染的主要靶器官,感染痊愈后以呼吸道症状为主的PASC又相对常见[3]。研究指出,目前全球范围内对PASC早期监测与干预缺乏,导致受PASC困扰的患者数量下降不明显,且PASC的干预需要多学科贯穿新冠感染患者的整个治疗流程,故建立早期识别PASC的模型对于改善患者预后具有较好的效果[4-5]。本次研究在既往研究的基础上,采用随机森林模型对以呼吸道症状为主的PASC发生进行预测,取得了较好的效果,现报道如下。


1、资料与方法


1.1临床资料

选择2022年1月—2023年5月期间于我院住院治疗的新冠感染患者作为研究对象,纳入标准:(1)2个月内明确《新型冠状病毒感染诊疗方案(试行第十版)》中诊断标准[6],有完整的病史及实验室检查资料;(2)年龄≥18周岁;(3)COVID-19感染及后续治疗情况明确;(4)患者知情同意。排除标准:(1)既往肺纤维化、尘肺病等肺部相关疾病史;(2)既往结缔组织疾病史;(3)合并严重的全身慢性消耗性疾病,且处于活动期;(4)病史资料不完全;(5)合并精神或神经类疾病;(6)慢性心衰、慢性阻塞性肺疾病、肾衰等脏器功能不全。符合上述要求并经伦理委员会审核后纳入患者600例。

1.2方法

1.2.1 PASC诊断标准。

参照WHO[7]、欧洲临床微生物学和传染病学会[8]中相关意见将符合下列条件患者视为PASC:新冠核酸或抗原转阴2个月后除外感染、心衰等疾病所致,且其他原因无法解释的咳嗽、咳痰、呼吸困难症状(任意一个)评分超过2分,持续时间超过3个月。见表1。

表1症状评分标准

1.2.2随访方案及分组。

患者新冠核酸转阴或出院后均建议口服乙酰半胱氨酸片(厂家:海南赞帮制药有限公司;批号:国药准字H20080326;规格:0.6g/片),0.6g/次,2次/d,疗程3个月,按照每月1次时间截点到院随访,调整乙酰半胱氨酸片使用疗程,同时分别于随访第2个月、第5个月及末次随访时需要完善胸部CT检查,了解患者症状变化情况,并进行症状评分后确定PASC发生情况。

1.3观察指标

1.3.1一般资料:

包括年龄、性别构成、体重指数(BMI)、吸烟史、辅助通气情况、基础疾病、新冠感染分型、入院时新冠核酸Ct值、合并感染情况、疫苗接种情况以及治疗COVID-19药物使用情况。

1.3.2实验室检查资料:

入院时或首次门诊就诊时均抽取空腹静脉血完善以下检查:(1)血常规:白细胞(WBC)、中性粒细胞绝对值(Ne)、淋巴细胞绝对值(Ly)、Ly/Ne、血红蛋白(HGB)、血小板(PLT),检测仪器为迈瑞BC-6800Plus全自动血球计数仪;(2)肝肾功能:丙氨酸氨基转移酶(ALT)、血肌酐(Cr),检测仪器为东芝120全自动生化分析仪;(3)感染相关指标:C反应蛋白(CRP)、白介素6(IL-6)、肿瘤坏死因子(TNF-α),检测仪器为东芝120全自动生化分析仪;(4)凝血功能:D二聚体、纤维蛋白原(FIB)、凝血酶原时间(PT)、国际标准化比值(INR),检测仪器为迈瑞EXC810凝血分析仪。

1.4统计学方法

所有数据均用SPSS25.0软件进行分析,计量资料用表示,组间比较用独立样本t检验,计数资料用n(%)表示,比较采用χ2检验。PASC的各相关因素分析用多因素logistic回归分析,进行了向前有条件法比较。用Python(3.7.3)语言ScikitLearn机器学习库中Random Forsest Classifier算法建立预测PASC的随机森林模型;用ROC曲线进行预测效能比较,其中曲线下面积(AUC)采用Z检验。以P<0.05表示差异有统计学意义。


2、结果


2.1随访分组情况及一般资料比较

随访截至2023年11月30日,600例患者中,共计63例因失访视为脱落,故最终共计537例患者纳入本次研究。纳入的537例患者中PASC共计108例,故最终分组为PSAC组(n=108)和对照组(n=429)。PASC组患者年龄大于对照组,机械通气、冠心病占比高于对照组,罹患新冠分型及疫苗接种情况差于对照组(P<0.05),见表2。

2.2两组患者实验室检查资料比较

PASC组患者Ly及Ly/Ne低于对照组,IL-6、TNF-α、D二聚体及FIB高于对照组,罹患新冠分型及疫苗接种情况差于对照组(P<0.05),见表3。

2.3影响PASC发生的相关因素分析

以单因素分析存在差异的指标为自变量,以是否发生PASC为因变量进行logistic回归分析,结果显示,年龄、IL-6、TNF-α、D二聚体、FIB、冠心病、未接种新冠疫苗是影响PASC发生的独立危险因素,Ly/Ne、罹患新冠分型为轻、中型是影响PASC发生的独立保护因素(P<0.05),见表4。

表2两组患者一般资料比较

表3两组患者实验室检查资料比较

2.4影响PASC发生的随机森林模型的变量重要性分析

根据随机森林模型预测精度平均下降量对随机森林模型各变量的重要程度进行排序,其排名为:D二聚体、FIB、Ly/Ne、年龄、IL-6、罹患新冠分型、TNF-α、疫苗接种情况及冠心病。见图1。

2.5预测PASC发生的随机森林的集成分类算法模型构建

随机森林模型进行的调参采用梯度提升回归树算法,结果显示:从20棵决策树开始,扩展的随机森林算法的误差(均方差)逐渐趋于平缓,后续伴随决策树数目增加误差明显升高。故设置每片森林的决策树数目为20棵,即在训练每片随机森林时,构建20棵不同的决策树,见图2。

表4影响PASC发生的相关因素分析

图1模型中各特征的重要程度及累积重要程度

图2决策树数目与OOB估计平均值之间关系

2.6两种预测模型诊断效能对比

随机森林的集成分类算法其诊断效能明显高于多因素logistic回归分析的诊断效能,其中随机森林的集成分类算法ROC曲线下面积为0.976,多因素logistic回归分析模型下ROC曲线下面积为0.790。其中,随机森林模型的F1-score为0.944,准确率为91.34%,敏感性为92.73%,特异性为90.71%,阳性预测值为97.71%,阴性预测值为93.91%。见图3。

图3两种预测模型诊断效能的ROC曲线图


3、讨论


在新冠大流行之后,PASC是临床工作中不得不面对的普遍问题,且因为新冠感染会累积多器官功能受损,故PASC的主要表现虽然在呼吸系统,但消化、心血管及神经系统均存在不同程度的症状[9]。而PASC发生的病理基础主要有以下几点:(1)新冠病毒会侵犯并藏匿于各个脏器;(2)新冠病毒感染后抑制机体免疫反应,并导致炎症以及组织损伤;(3)COVID-19可能诱发过度炎症综合征;(4)诱发自身免疫反应导致机体损伤;(5)线粒体功能障碍和免疫代谢受损;(6)微生物群改变;(7)肾素—血管紧张素系统(renin-angiotensin system, RAS)失衡[10-13]。早期预测PASC可以有助于尽早开展对症治疗,改善患者生活质量。

分析本次研究两组患者存在显著差异的数据,年龄作为影响人体器官功能及疾病恢复情况的重要因素,已经在既往研究中得到了证实,且成年后的大龄患者在罹患疾病后发生后遗症的可能性也显著升高[14]。在各版本的新冠治疗指南中均指出,PaO2/FiO2<150mmHg(1mmHg=0.133kPa)应当考虑予以插管并行机械通气,此类患者肺部病灶也相对严重,分型基本达到重型标准,而新冠病情严重程度在Morin等人[15]的研究中指出与出院后PASC发生有显著的相关性,故本次研究结果与之类似。罹患冠心病患者可能因为冠心病所致的血管内皮损伤相对较重,故在感染COVID-19后导致的全身炎性反应及免疫反应更加剧烈,其重症化风险也相对较高[16]。还有研究指出,COVID-19感染后冠心病患者心肌纤维化及心脏重构也相对严重,故可能通过影响肺动脉功能从而导致患者发生PASC[17]。一项荟萃分析显示,在纳入的536项观察性研究所涉及的29 184名未接种疫苗以及6 032名新冠感染前接种疫苗的患者中,感染前接种疫苗患者PASC发生率仅为未接种患者的0.6倍,不难看出,提前接种疫苗是防治PASC发生的有效手段[18]。在本次研究中,患者接种疫苗是影响PASC发生的独立因素,而接种疫苗方式与PASC发生并无显著关系,提示提前接种疫苗可以预防PASC发生,但不局限于疫苗种类。有研究将高血压及糖尿病也作为了PASC发生的危险因素,但由于本次研究纳入患者年龄偏低,且高血压及糖尿病的占比也相对较低,故导致上述两种基础疾病比较无明显差异[19]。

淋巴细胞是参与COVID-19清除的重要因素,COVID-19感染后会抑制患者免疫功能,从而发生淋巴细胞下降的情况,值得注意的是COVID-19清除是一个长期过程,更低的淋巴细胞意味着患者免疫系统抑制相对严重,从而导致病毒清除不全,此为导致PASC的病理基础之一[20-21]。有研究指出,Ne升高是新冠病情及死亡率的相关因素,而Ly/Ne对于患者免疫功能及炎性程度的反应效果更好,已经被广泛运用于感染性疾病的预后预测,而本次研究中Ly/Ne降低患者PASC发生率升高,说明此项指标与PASC的发生还具有一定的关系[22-23]。有研究指出,COVID-19清除过程中会持续存在持续免疫反应,主要由病毒或病毒抗原和(或)免疫细胞的慢性重编程所致,此过程会导致患者S1蛋白(抗原蛋白)表达量升高,同时还会导致血液中的浆细胞样树突状细胞更加活跃,从而导致IL-6及TNF-α表达升高,从而导致持续的炎性症状,此为PASC发生的病理基础[24-25]。此外,还有研究指出COVID-19清除过程还会导致特异性CD8+和CD4+T细胞克隆型的扩增,从而导致IL-6和TNF-α长期高水平,最终导致PASC的发生[9,26]。研究指出,COVID-19对于血管内皮的损伤程度远高于其他常见的呼吸道病毒,故其引起肺栓塞的风险相对升高,且肺微小血栓形成是导致新冠患者病情加重的重要原因[27]。而COVID-19感染引起纤溶过程亢进的影响是引起D二聚体升高的重要原因,而FIB是反映纤溶过程的重要指标[28]。在Kell等人[29]的研究中指出,纤溶过程亢进所诱发的微血栓导致的细胞缺氧与COVID-19感染长期持续症状的病理基础相符,故D二聚体及FIB与PASC的发生存在显著相关性。

在多因素分析中,Ly及机械通气被排除了独立危险因素,分析原因有以下几点:(1)Ly与Ly/Ne具有高度同源性,二者因共线性关系,故导致了Ly被排除独立危险因素;(2)本次研究机械通气占比较低,因样本量偏低导致的偏倚影响了机械通气与PASC之间的相关性。对随机森林模型各变量的重要程度排序上D二聚体、FIB、Ly/Ne、年龄、IL-6、新冠分型、TNF-α、疫苗接种情况及冠心病排名最靠前。证明了上述指标是导致PASC的重要因素。ROC比较结果显示,构建的随机森林的集成分类算法的诊断效能明显高于多因素logistic回归分析。主要是随机森林算法对混杂数据、缺失值或离群值及较高维度的数据处理的效果更好,且后续的决策树在对数据综合分类的同时,还能对其中的关联性进行检验、预测和解释,避免数据过拟合的情况发生,提高了疾病的诊断效能[30]。

综上所述,基于随机森林算法构建的PASC预测模型具有较好的预测价值,但本次研究为单中心研究,且纳入患者年龄段相对单调,故需要进一步扩大研究范围,同时选取多个不同维度样本进行分析,进一步完善PASC预测模型的构建。


参考文献:

[6]中华人民共和国国家卫生健康委员会办公厅,中华人民共和国国家中医药管理局综合司.新型冠状病毒感染诊疗方案(试行第十版)[J].中国医药,2023,18(2):161-166.

[10]苏芗萌,王一帆,王智贤,等.新型冠状病毒肺炎发生后遗症的病理生理机制研究进展[J].中国病理生理杂志,2022,38(8):1499-1506.


基金资助:2023年度联勤保障部队第九二五医院自主创新科学基金项目(yjkt2023-04);


文章来源:熊静,吕麟亚,吴斌军,等.基于随机森林算法的呼吸系统新冠后遗症预测模型的构建与分析[J].医学理论与实践,2024,37(19):3263-3267.

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

我要评论

医学研究与教育

期刊名称:医学研究与教育

期刊人气:2789

期刊详情

主管单位:河北省教育厅

主办单位:河北大学

出版地方:河北

专业分类:医学

国际刊号:1674-490X

国内刊号:13-1393/R

创刊时间:1984年

发行周期:双月刊

期刊开本:大16开

见刊时间:1-3个月

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

400-069-1609

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定