摘要:针对出血性脑卒中起病急、进展快且通常会导致脑组织机械性损伤和一系列复杂的生理病理反应等问题建立了一种基于机器学习的智能诊疗预测模型,使用人工智能技术对大量影像数据进行处理分析,随机抽取数据样本将模型应用于出血性脑卒中的临床诊疗预测中。与传统回归方法相比,机器学习方法在均方误差、平均绝对误差、平均绝对百分比误差上分别有62.08%、65.89%和47.33%的提升,证明机器学习智能诊疗预测模型可提高出血性脑卒中患者的预测准确率。
脑卒中是由于脑部血管突然破裂或因血管阻塞导致血液不能流入大脑而引起脑组织损伤的一种急性脑血管疾病,城乡合计脑卒中已成为我国第一位死亡原因,也是中国成年人残疾的首要原因[1]。因此发掘出血性脑卒中的发病风险,整合影像学特征、患者临床信息及临床诊疗方案,精准预测患者预后对优化临床决策具有重要的意义[2]。本研究针对出血性脑卒中后的两个重要关键事件,即血肿扩张和血肿周围水肿的发生及发展建立一种基于机器学习的智能诊疗预测模型,进行早期血肿扩张和血肿周围水肿的识别和预测。
1、诊疗模型指标及算法
1)均方误差[3](Mean Squared Error, MSE)是预测数据和原始数据对应点误差平方和的均值,公式为:
为真实值。MSE值越接近于0说明模型的选择和拟合越好,数据预测也越成功。
2)平均绝对误差[4](Mean Absolute Error,MAE)又称平均绝对离差,是所有单个观测值与算术平均值之间偏差绝对值的均值,与其它误差衡量方式相比,平均绝对误差可以避免误差相互抵消的问题发生,从而更准确地反映模型预测的真实误差,MAE值越小说明模型的预测效果越好,公式为:
3)平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)公式:
MAPE的范围为[0,+∞)。MAPE为0%表示完美模型,MAPE大于100%则表示为劣质模型。MAPE的值越小说明预测模型的精确度越高。
4)拟合优度。R2是衡量模型没有捕获到的信息量占真实标签中信息量的比例,公式为:
其中,SST=SSR+SSE,SST(total sum of squares)为总平方和,SSR(regression sum of squares)为回归平方和,SSE(error sum of squares)为残差平方和。R2越接近于1越好,说明引入的因素能够解释数据集的变异。
5)各种算法。①斯皮尔曼相关系数也被称作斯皮尔曼等级相关系数[5],是用于度量两个变量X和Y之间的相关性,其值介于-1与1之间。一般用于分析两个连续变量之间的关系。②支持向量机(Support Vector Machine, SVM)[6]是一个二类分类器。SVM是传统机器学习的一个非常重要的分类算法,是一种通用的前馈网络类型。深度学习(2012)出现之前,支持向量机(SVM)被认为是机器学习中最成功的算法。③随机森林算法(Random Forest, RF)[7]是一种备受瞩目的机器学习技术,核心思想是集成学习,通过构建并组合多个决策树来提高预测的准确性和稳定性。
2、模型预测结果
2.1 血肿扩张的定义判断
是否发生血肿扩张的定义:如果患者后续检查的血肿体积比首次检查增加≥6 mL或≥33%,则判断为血肿扩张。以下是判断步骤:①提取患者首次入院的影像检查流水号、发病到首次影像检查时的数据以及各时间点流水号及对应的血肿体积数据。②根据流水号查找患者首次检查的时间点以及后续影像检查的时间点,筛选出首次检查与后续随访检查间隔时间在48 h内的患者。③依次计算相邻两次检查的血肿体积变化量和百分比。④如果变化量≥6 mL或百分比≥33%则为发生血肿扩张。⑤发病至首次影像检查时间与后续随访影像检查时间点及首次影像检查时间和血肿扩张发生的时间。最终筛选出发病后48小时内发生血肿扩张的23例患者,其中22例患者的血肿绝对体积增加量>6 ml。
图1血肿扩张患者的发病间隔时间
由图1可知,在发病48 h内发生血肿扩张的患者中,出现血肿扩张间隔时间最长的为42.75 h,发生血肿扩张间隔时间最短的为6.53 h,发生血肿扩张的平均时间为20.64 h。
2.2 血肿扩张预测模型
2.2.1 数据相关性分析
根据患者的个人病史及影像检查资料进行血肿扩张概率预测。由于数据繁多,需找出数据中的关键因素或贡献度较大的数据,以简化分析其过程并提高计算效率。为了完成这个目标,利用相关系数矩阵找出所有变量之间的相关性,通过观察矩阵中各元素绝对值的大小判断出两个变量之间的相关程度,如果元素绝对值接近1,所对应的两个变量之间会有很强的相关性,如果元素绝对值接近0,那么两个变量之间的相关性就会减弱。
为检测两个指标线性关系的强弱程度,通常采用皮尔逊相关系数和斯皮尔曼等级相关系数进行分析。只有两个指标满足线性关系后才能使用皮尔逊相关系数,指标数据服从正态分布才能对皮尔逊相关系数进行假设检验,详见图2。
图2判断相关性分析方法的流程图
为了分析数据样本是否适用于皮尔逊相关系数,随机抽取了患者信息中的6个信息进行正态分布检验。由图3可知,6个变量中,只有年龄和90 d的评分等级(mRS)服从正态分布,其余4个信息不服从正态分布,说明该样本数据不适用于皮尔逊相关分析,因此本研究选择斯皮尔曼相关系数进行相关性分析。
为了便于剔除冗余的病患信息,采用黑白二值热力图将相关系数绝对值>0.95的位置标记出来,如图4所示。其中白色代表相关系数的绝对值>0.95的位置,筛选方法以第一列为例。在第一列的所有白色的患者信息中,保留这些患者信息与发生血肿扩张相关系数最高的病患信息,其余的剔除。以此类推,对后面的每一列都进行一次筛选,最终得到7个相关度最高的病患信息,分别是年龄、90 d的评分等级(mRS)、发病到首次检查时间、血压、水肿体积(HM_volume)、大脑中动脉右侧水肿比例(HM_MCA_R_Ratio)和最大二维直径柱(original _ shape _ Maximum2DdiameterSlice)。
图3随机抽样进行正态分布检验的Q-Q图
图4患者信息自相关黑白热力图
2.2.2 血肿扩张概率预测模型
该部分分别使用多元线性回归、随机森林算法和支持向量机来建立根据7个患者信息数据预测其发生血肿扩张概率的模型,通过对各模型MSE、R2指标进行预测效果分析,选择预测效果最佳的模型对患者发生血肿扩张进行概率预测。
用80个样本数据作为训练集,20个样本用作测试集,并根据数据集切分方法分别对预测模型进行训练和测试。
在多元回归分析中,如果因变量和多个自变量的关系为线性时,就属于多元线性回归。多元线性回归是一元线性回归的扩展,其基本原理及方法与一元线性回归分析类似,其回归方程为:
E(yi)=a+bxi1+…+gxin (5)
其中,xi1,xi2,…,xin是自变量,b,c,…,g是回归系数,a是常数,通过确定回归方程的回归系数对因变量y进行预测。
本研究选择IBM SPSS Statistics 26.0对7个患者病历信息与其对应发生血肿扩张事件进行多元线性回归,最终得到的回归方程为:
y=-225.3-0.048x1-0.001x2+0.369x3-0.257x4+0.007x5+0.223x6-0.071x7 (6)
利用回归方程(6)进行测试,预测结果与真实值之间的均方误差(MSE)为0.9365,平均绝对误差(MAE)为1.3356,平均绝对百分比误差(MAPE)为0.1333,拟合优度(R2)为0.56982。从误差的正态分布图可以看出,多元线性回归方法的误差集中在-1附近,说明多元线性回归对样本点的预测误差较大,很多点之间的差距过大导致模型总体精度较低,表明7个患者信息与是否发生血肿扩张是非线性关系,故传统的回归方法并不适用于该模型,为此本研究选取以随机森林和支持向量机的传统机器学习方法对患者是否发生血肿扩张进行预测。使用的是基于Matlab集成的机器学习工具。为了验证算法预测的精确的,排除随机性和预测算法对血肿扩张预测的鲁棒性,分别计算了随机森林和支持向量机对血肿扩张的10次预测结果,详见表1。
表1两种模型运行10次的指标预测结果
表1是两种模型运行10次的均方误差(MSE)、平均绝对误差(MAE)、平均绝对百分比误差和拟合优度(R2)的计算结果,通过数据对比得出支持向量机10次预测结果中的4个指标:最优值、最差值、平均数、中位数都优于随机森林法。4个指标中,随机森林的标准差是最小的,说明它的预测鲁棒性是最优的。
图5支持向量机(SVM)预测误差的分布
图5是利用支持向量机对是否发生血肿扩张进行预测结果误差分布的正态分布图。支持向量机的误差主要集中在-0.5, 0.5之间,说明支持向量机对样本数据有较好的预测效果,总体精度非常高,适用于对患者是否发生血肿扩张的预测。
图6随机森林的预测误差分布
图6是利用随机森林对是否发生血肿扩张进行结果预测的误差分布图。随机森林的预测曲线与真实曲 线拟合度低于支持向量机的预测结果,但随机森林的 预测误差分布更加集中,这是随机森林鲁棒性好的原因。结果表明,支持向量机在本次研究中的误差率最低,预测精度最高。
3、结束语
本研究针对出血性脑卒中患者的临床诊断问题建立了一种基于机器学习的智能诊疗预测模型。首先,对数据进行预处理,分析患者发病后48 h内是否发生血肿扩张事件,从中筛选出发生血肿扩张的患者,以获得可靠数据样本。其次,随机抽取数据样本,检验是否服从正态分布。通过患者信息和血肿扩张事件相关性系数绝对值>0.95,从23个患者的病案资料中提取出关键数据样本信息建立血肿扩张事件的预测模型,与传统回归方法比较,机器学习方法的均方误差(MSE)提高了62.08%、平均绝对误差(MAE)提高了65.89%、平均绝对百分比误差(MAPE)提高了47.33%,证明机器学习智能诊疗预测模型可提高出血性脑卒中患者的预测准确率。
参考文献:
[1]汪欣,马宝新.多时相头CT血管造影联合CT灌注成像评估急性缺血性脑卒中患者侧支循环中的应用价值[J].黑龙江医学,2023,47(17):2113-2115,2119.
[5]王宝安,张涵璐,邓富金.基于拉依达准则的MMC子模块开路故障定位[J].电力工程技术,2023,42(01):116-123.
基金资助:铜仁市科学技术局基础科学研究项目(铜市科研[2022]72号);
文章来源:王恒,郭俊亮.基于机器学习的出血性脑卒中临床智能诊疗预测模型的建立[J].黑龙江科学,2024,15(10):129-132.
分享:
运动及平衡障碍是卒中后最常见的后遗症。尽管常规康复可改善运动功能,但治疗时间长,依从性差且对精细运动及平衡障碍等疗效有限,需要进一步探索更加精确、高效的治疗方法。经颅磁刺激(transcranial magnetic stimulation,TMS)对脑卒中后运动及平衡障碍有积极的作用。
2024-10-18脑血流低灌注主要指存在颅内外大血管狭窄或次全闭塞的患者,临床最常见的大血管狭窄主要位于颈内动脉起始段及虹吸段、大脑中动脉水平段、椎动脉起始段及末段、基底动脉中下段,主要发病机制为动脉粥样硬化性狭窄。在中国缺血性脑卒中患者中,30%~50%存在颅内动脉粥样硬化性狭窄(intracranial atherosclerotic stenosis,ICAS)。
2024-10-08脑卒中由脑部血管栓塞或破裂引起,病灶脑组织发生缺血缺氧性坏死后,损害中枢神经系统功能,使患者出现进食缓慢、吞咽梗阻感、吞咽呛咳等吞咽障碍症状,其发生率较高,最高能够达到65%。脑卒中后吞咽障碍对患者预后造成的影响较大,患者无法通过经口摄食获取营养,还容易因呛咳发生吸入性肺炎,导致患者生活质量下降,并加重家庭、社会经济负担。
2024-09-27脑卒中是最常见的神经系统疾病,是中国成年人致死和致残的首位病因。脑卒中会导致病人出现不同程度的肢体功能障碍、认知损害和负性情绪,其中卒中后疲劳(post-stroke fatigue, PSF)是伴随脑卒中幸存者较持久的身心症状之一,在全球范围内患病率为46.8%,我国卒中后疲劳患病率为43.5%。
2024-09-25脑卒中又称中风,位居四大疑难病症“风、痨、臌、膈”之首位,其每年患病率为0.05%~0.07%,并且近10年来其致残率在全球一直居于首位[1]。脑卒中后致残的主要原因在于患肢发生痉挛性偏瘫,其占比高达中风患者的60%[2],对患者运动功能及日常活动能力的康复产生巨大的影响[3]。
2024-09-25音乐疗法是一种利用音乐元素作为干预手段,改善患者神经功能和情绪状态的系统治疗方法。有多项研究表明,在正式的音乐治疗环境之外进行的音乐娱乐活动或以音乐为基础的干预对于正常的老年人,以及患有脑卒中和痴呆等神经性疾病的老年人,在认知、运动、情感和社会机能方面都有很大的益处[6]。
2024-09-24缺血性脑卒中(cerebral ischemic stroke,CIS)具有较高的致残率,残障CIS患者常低估自身健康与自理能力,导致自我价值感缺失和抑郁,进而影响康复进程及生活质量。残障接受度是指个体对自身残障状态的接受程度,是个体价值观、社会生活的适应过程,可反映个体能否深刻认识自身价值。
2024-09-21脑卒中又称急性脑血管病(cerebral vascular accident,CVA),是我国成年人致残及致死的第一病因,也是我国疾病导致寿命缩短的首要病因[1]。我国人口老龄化加剧和脑血管病危险因素增加导致脑卒中发病率逐年上升,且患者的年龄呈现年轻化趋势,给我国的医疗体系和社会经济造成巨大的负担。
2024-09-18脑卒中是一种常见的神经系统疾病,是我国成人致死率和致残率最高的疾病[1],且我国是全球脑卒中患病率最高的国家[2]。而急性缺血性脑卒中(acute ischemic stroke, AIS)的患病率占所有脑卒中的80%,是全球导致死亡和残疾的主要原因之一[3]。溶栓治疗通过溶解血栓可迅速恢复病人的血流,最大限度减小神经组织损伤,是AIS首选治疗方案[4]。
2024-09-18肝气郁结型脑卒中后抑郁属于中风后抑郁症,病机有虚实之分,实证以气机郁滞为基本病变,虚证以脏腑亏虚为基本病变[1]。该病对患者生活质量产生严重影响,需要加强关于疾病治疗的研究工作。通元针法是重要的针灸治疗方法,该种方法的取穴需要注意两方面内容。
2024-09-16人气:10307
人气:8411
人气:6481
人气:6423
人气:6072
我要评论
期刊名称:卒中与神经疾病
期刊人气:817
主管单位:中华人民共和国教育部
主办单位:武汉大学人民医院(湖北省人民医院)
出版地方:湖北
专业分类:医学
国际刊号:1007-0478
国内刊号:42-1402/R
邮发代号:38-305
创刊时间:1994年
发行周期:双月刊
期刊开本:大16开
见刊时间:10-12个月
影响因子:0.000
影响因子:2.320
影响因子:0.850
影响因子:0.647
影响因子:0.826
400-069-1609
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!