
摘要:针对出血性脑卒中起病急、进展快且通常会导致脑组织机械性损伤和一系列复杂的生理病理反应等问题建立了一种基于机器学习的智能诊疗预测模型,使用人工智能技术对大量影像数据进行处理分析,随机抽取数据样本将模型应用于出血性脑卒中的临床诊疗预测中。与传统回归方法相比,机器学习方法在均方误差、平均绝对误差、平均绝对百分比误差上分别有62.08%、65.89%和47.33%的提升,证明机器学习智能诊疗预测模型可提高出血性脑卒中患者的预测准确率。
脑卒中是由于脑部血管突然破裂或因血管阻塞导致血液不能流入大脑而引起脑组织损伤的一种急性脑血管疾病,城乡合计脑卒中已成为我国第一位死亡原因,也是中国成年人残疾的首要原因[1]。因此发掘出血性脑卒中的发病风险,整合影像学特征、患者临床信息及临床诊疗方案,精准预测患者预后对优化临床决策具有重要的意义[2]。本研究针对出血性脑卒中后的两个重要关键事件,即血肿扩张和血肿周围水肿的发生及发展建立一种基于机器学习的智能诊疗预测模型,进行早期血肿扩张和血肿周围水肿的识别和预测。
1、诊疗模型指标及算法
1)均方误差[3](Mean Squared Error, MSE)是预测数据和原始数据对应点误差平方和的均值,公式为:
为真实值。MSE值越接近于0说明模型的选择和拟合越好,数据预测也越成功。
2)平均绝对误差[4](Mean Absolute Error,MAE)又称平均绝对离差,是所有单个观测值与算术平均值之间偏差绝对值的均值,与其它误差衡量方式相比,平均绝对误差可以避免误差相互抵消的问题发生,从而更准确地反映模型预测的真实误差,MAE值越小说明模型的预测效果越好,公式为:
3)平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)公式:
MAPE的范围为[0,+∞)。MAPE为0%表示完美模型,MAPE大于100%则表示为劣质模型。MAPE的值越小说明预测模型的精确度越高。
4)拟合优度。R2是衡量模型没有捕获到的信息量占真实标签中信息量的比例,公式为:
其中,SST=SSR+SSE,SST(total sum of squares)为总平方和,SSR(regression sum of squares)为回归平方和,SSE(error sum of squares)为残差平方和。R2越接近于1越好,说明引入的因素能够解释数据集的变异。
5)各种算法。①斯皮尔曼相关系数也被称作斯皮尔曼等级相关系数[5],是用于度量两个变量X和Y之间的相关性,其值介于-1与1之间。一般用于分析两个连续变量之间的关系。②支持向量机(Support Vector Machine, SVM)[6]是一个二类分类器。SVM是传统机器学习的一个非常重要的分类算法,是一种通用的前馈网络类型。深度学习(2012)出现之前,支持向量机(SVM)被认为是机器学习中最成功的算法。③随机森林算法(Random Forest, RF)[7]是一种备受瞩目的机器学习技术,核心思想是集成学习,通过构建并组合多个决策树来提高预测的准确性和稳定性。
2、模型预测结果
2.1 血肿扩张的定义判断
是否发生血肿扩张的定义:如果患者后续检查的血肿体积比首次检查增加≥6 mL或≥33%,则判断为血肿扩张。以下是判断步骤:①提取患者首次入院的影像检查流水号、发病到首次影像检查时的数据以及各时间点流水号及对应的血肿体积数据。②根据流水号查找患者首次检查的时间点以及后续影像检查的时间点,筛选出首次检查与后续随访检查间隔时间在48 h内的患者。③依次计算相邻两次检查的血肿体积变化量和百分比。④如果变化量≥6 mL或百分比≥33%则为发生血肿扩张。⑤发病至首次影像检查时间与后续随访影像检查时间点及首次影像检查时间和血肿扩张发生的时间。最终筛选出发病后48小时内发生血肿扩张的23例患者,其中22例患者的血肿绝对体积增加量>6 ml。
图1血肿扩张患者的发病间隔时间
由图1可知,在发病48 h内发生血肿扩张的患者中,出现血肿扩张间隔时间最长的为42.75 h,发生血肿扩张间隔时间最短的为6.53 h,发生血肿扩张的平均时间为20.64 h。
2.2 血肿扩张预测模型
2.2.1 数据相关性分析
根据患者的个人病史及影像检查资料进行血肿扩张概率预测。由于数据繁多,需找出数据中的关键因素或贡献度较大的数据,以简化分析其过程并提高计算效率。为了完成这个目标,利用相关系数矩阵找出所有变量之间的相关性,通过观察矩阵中各元素绝对值的大小判断出两个变量之间的相关程度,如果元素绝对值接近1,所对应的两个变量之间会有很强的相关性,如果元素绝对值接近0,那么两个变量之间的相关性就会减弱。
为检测两个指标线性关系的强弱程度,通常采用皮尔逊相关系数和斯皮尔曼等级相关系数进行分析。只有两个指标满足线性关系后才能使用皮尔逊相关系数,指标数据服从正态分布才能对皮尔逊相关系数进行假设检验,详见图2。
图2判断相关性分析方法的流程图
为了分析数据样本是否适用于皮尔逊相关系数,随机抽取了患者信息中的6个信息进行正态分布检验。由图3可知,6个变量中,只有年龄和90 d的评分等级(mRS)服从正态分布,其余4个信息不服从正态分布,说明该样本数据不适用于皮尔逊相关分析,因此本研究选择斯皮尔曼相关系数进行相关性分析。
为了便于剔除冗余的病患信息,采用黑白二值热力图将相关系数绝对值>0.95的位置标记出来,如图4所示。其中白色代表相关系数的绝对值>0.95的位置,筛选方法以第一列为例。在第一列的所有白色的患者信息中,保留这些患者信息与发生血肿扩张相关系数最高的病患信息,其余的剔除。以此类推,对后面的每一列都进行一次筛选,最终得到7个相关度最高的病患信息,分别是年龄、90 d的评分等级(mRS)、发病到首次检查时间、血压、水肿体积(HM_volume)、大脑中动脉右侧水肿比例(HM_MCA_R_Ratio)和最大二维直径柱(original _ shape _ Maximum2DdiameterSlice)。
图3随机抽样进行正态分布检验的Q-Q图
图4患者信息自相关黑白热力图
2.2.2 血肿扩张概率预测模型
该部分分别使用多元线性回归、随机森林算法和支持向量机来建立根据7个患者信息数据预测其发生血肿扩张概率的模型,通过对各模型MSE、R2指标进行预测效果分析,选择预测效果最佳的模型对患者发生血肿扩张进行概率预测。
用80个样本数据作为训练集,20个样本用作测试集,并根据数据集切分方法分别对预测模型进行训练和测试。
在多元回归分析中,如果因变量和多个自变量的关系为线性时,就属于多元线性回归。多元线性回归是一元线性回归的扩展,其基本原理及方法与一元线性回归分析类似,其回归方程为:
E(yi)=a+bxi1+…+gxin (5)
其中,xi1,xi2,…,xin是自变量,b,c,…,g是回归系数,a是常数,通过确定回归方程的回归系数对因变量y进行预测。
本研究选择IBM SPSS Statistics 26.0对7个患者病历信息与其对应发生血肿扩张事件进行多元线性回归,最终得到的回归方程为:
y=-225.3-0.048x1-0.001x2+0.369x3-0.257x4+0.007x5+0.223x6-0.071x7 (6)
利用回归方程(6)进行测试,预测结果与真实值之间的均方误差(MSE)为0.9365,平均绝对误差(MAE)为1.3356,平均绝对百分比误差(MAPE)为0.1333,拟合优度(R2)为0.56982。从误差的正态分布图可以看出,多元线性回归方法的误差集中在-1附近,说明多元线性回归对样本点的预测误差较大,很多点之间的差距过大导致模型总体精度较低,表明7个患者信息与是否发生血肿扩张是非线性关系,故传统的回归方法并不适用于该模型,为此本研究选取以随机森林和支持向量机的传统机器学习方法对患者是否发生血肿扩张进行预测。使用的是基于Matlab集成的机器学习工具。为了验证算法预测的精确的,排除随机性和预测算法对血肿扩张预测的鲁棒性,分别计算了随机森林和支持向量机对血肿扩张的10次预测结果,详见表1。
表1两种模型运行10次的指标预测结果
表1是两种模型运行10次的均方误差(MSE)、平均绝对误差(MAE)、平均绝对百分比误差和拟合优度(R2)的计算结果,通过数据对比得出支持向量机10次预测结果中的4个指标:最优值、最差值、平均数、中位数都优于随机森林法。4个指标中,随机森林的标准差是最小的,说明它的预测鲁棒性是最优的。
图5支持向量机(SVM)预测误差的分布
图5是利用支持向量机对是否发生血肿扩张进行预测结果误差分布的正态分布图。支持向量机的误差主要集中在-0.5, 0.5之间,说明支持向量机对样本数据有较好的预测效果,总体精度非常高,适用于对患者是否发生血肿扩张的预测。
图6随机森林的预测误差分布
图6是利用随机森林对是否发生血肿扩张进行结果预测的误差分布图。随机森林的预测曲线与真实曲 线拟合度低于支持向量机的预测结果,但随机森林的 预测误差分布更加集中,这是随机森林鲁棒性好的原因。结果表明,支持向量机在本次研究中的误差率最低,预测精度最高。
3、结束语
本研究针对出血性脑卒中患者的临床诊断问题建立了一种基于机器学习的智能诊疗预测模型。首先,对数据进行预处理,分析患者发病后48 h内是否发生血肿扩张事件,从中筛选出发生血肿扩张的患者,以获得可靠数据样本。其次,随机抽取数据样本,检验是否服从正态分布。通过患者信息和血肿扩张事件相关性系数绝对值>0.95,从23个患者的病案资料中提取出关键数据样本信息建立血肿扩张事件的预测模型,与传统回归方法比较,机器学习方法的均方误差(MSE)提高了62.08%、平均绝对误差(MAE)提高了65.89%、平均绝对百分比误差(MAPE)提高了47.33%,证明机器学习智能诊疗预测模型可提高出血性脑卒中患者的预测准确率。
参考文献:
[1]汪欣,马宝新.多时相头CT血管造影联合CT灌注成像评估急性缺血性脑卒中患者侧支循环中的应用价值[J].黑龙江医学,2023,47(17):2113-2115,2119.
[5]王宝安,张涵璐,邓富金.基于拉依达准则的MMC子模块开路故障定位[J].电力工程技术,2023,42(01):116-123.
基金资助:铜仁市科学技术局基础科学研究项目(铜市科研[2022]72号);
文章来源:王恒,郭俊亮.基于机器学习的出血性脑卒中临床智能诊疗预测模型的建立[J].黑龙江科学,2024,15(10):129-132.
分享:
在全球范围内,脑卒中是导致人类功能障碍的主要疾病之一,偏瘫是其致残最主要的表现,属于中医“偏枯病”的范畴,本病恢复过程漫长且困难,严重影响病人的生活质量和社会参与能力,加重病人自身、家庭及社会的负担[1-3]。近年来,中医药在治疗本病近期疗效及远期预后方面显示出独特的优势[4-8]。
2025-04-15脑卒中具有高发病率、高致残率、高死亡率、高复发率、高经济负担五大特点。脑卒中后吞咽障碍(post-strokedysphagia,PSD)是卒中后常见的并发症,据报道,急性卒中后吞咽障碍的发生率超过50%,可能导致脱水、营养不良、误吸、肺炎和生存质量显著降低。
2025-04-12脑卒中是导致我国老年人致死、致残的首要原因,超过30%患者在发病后会经历脑卒中后认知功能障碍(PSCI)〔1〕。与无认知功能障碍的老年脑卒中患者比较,老年PSCI患者致残率、死亡率更高,5年生存率不到40%〔2〕。同时,老年PSCI患者的照料压力明显增加,疾病负担更重,给患者及其照顾者的生活质量造成严重影响〔3〕。
2025-04-11随着年龄的增长,人的身体功能会逐渐下降,血管壁会发生退行性改变,血管弹性下降,导致老年人脑卒中发病的概率升高,近年来老年脑卒中患者的数量正逐年增多。老年脑卒中患者常因脑部血管阻塞,造成脑组织受损,影响正常神经的传递和信息处理,造成认知功能受损,严重影响患者生活质量。
2025-04-11脑卒中疾病是临床常见病,发病率较高,且危害严重。脑卒中患者呼吸中枢神经通路中断或者间接作用,容易出现换气功能障碍,影响呼吸系统功能,而临床对此以气管切开帮助患者恢复通气,避免出现异常情况,影响患者生命安全[1-2]。脑卒中气管切开患者容易出现误吸、出血、感染等情况,尤其是感染较为多见。
2025-04-07脑卒中是一种严重威胁人类健康的疾病,其中缺血性脑卒中占比较高,具有高发病率、高死亡率和高致残率的特点,给社会和家庭带来了沉重的负担。尽管目前在缺血性脑卒中的治疗方面取得了一定进展,但仍然存在治疗时间窗有限以及部分患者治疗后神经功能恢复不佳等问题。
2025-03-31脑卒中是常见的脑血管疾病,分为缺血性脑卒中和出血性脑卒中,其中缺血性脑卒中占全部脑卒中的70%,是指由多种原因导致脑组织供血不足,脑细胞缺血、缺氧性改变,表现为神经功能缺损的一种综合征[1]。脑卒中属于中医“中风”范畴,临床以气虚血瘀型较为常见。清·王
2025-03-31铁在神经元和神经胶质细胞能量代谢、髓鞘合成及神经传递中起重要作用,若铁代谢出现紊乱则导致氧化应激、细胞死亡等后果[9]。另有研究指出,铁代谢改变在AD的发病中发挥重要作用,且AD患者的血清铁较为缺乏[10-11]。研究表明,脑卒中会破坏铁稳态,进一步诱导铁神经毒性,导致预后不良[12-13],推测血清铁水平与脑卒中患者PSCI相关。
2025-03-20血管性痴呆(Vascular Dementia, VD)是指缺血性卒中、出血性卒中和慢性脑低灌注等脑血管疾病所致的认知功能障碍综合征,其表现形式多样且疾病进展多变,具有高发病率和高致残率的特征。流行病学数据显示,VD约占全球痴呆病例的 20%,预计至 2050 年其患病率将较当前水平增长 3 倍。
2025-03-19缺血性脑卒中占脑卒中病例的70%,其高发病率和死亡率对全球公共卫生构成了巨大挑战[2].患者不仅会遭受生理功能损害,还可能面临情感淡漠等心理问题的影响.情感淡漠是一种以缺乏兴趣、动机减退、认知下降和情感反应减弱为特征的临床症状[3],严重影响患者的康复和生活质量.
2025-03-18人气:11603
人气:9161
人气:7228
人气:6963
人气:6877
我要评论
期刊名称:卒中与神经疾病
期刊人气:903
主管单位:中华人民共和国教育部
主办单位:武汉大学人民医院(湖北省人民医院)
出版地方:湖北
专业分类:医学
国际刊号:1007-0478
国内刊号:42-1402/R
邮发代号:38-305
创刊时间:1994年
发行周期:双月刊
期刊开本:大16开
见刊时间:10-12个月
影响因子:0.000
影响因子:2.320
影响因子:0.850
影响因子:0.647
影响因子:0.826
400-069-1609
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!