首页 > 论文范文 > 医药卫生论文 > 内科论文 > 脑卒中论文 > 基于机器学习的出血性脑卒中临床智能诊疗预测模型的建立

基于机器学习的出血性脑卒中临床智能诊疗预测模型的建立

2024-06-02 160 上传者：管理员

摘要：针对出血性脑卒中起病急、进展快且通常会导致脑组织机械性损伤和一系列复杂的生理病理反应等问题建立了一种基于机器学习的智能诊疗预测模型，使用人工智能技术对大量影像数据进行处理分析，随机抽取数据样本将模型应用于出血性脑卒中的临床诊疗预测中。与传统回归方法相比，机器学习方法在均方误差、平均绝对误差、平均绝对百分比误差上分别有62.08%、65.89%和47.33%的提升，证明机器学习智能诊疗预测模型可提高出血性脑卒中患者的预测准确率。

关键词：
人工智能;机器学习
出血性脑卒中
医学影像
脑卒中
预测模型
加入收藏

脑卒中是由于脑部血管突然破裂或因血管阻塞导致血液不能流入大脑而引起脑组织损伤的一种急性脑血管疾病，城乡合计脑卒中已成为我国第一位死亡原因，也是中国成年人残疾的首要原因[1]。因此发掘出血性脑卒中的发病风险，整合影像学特征、患者临床信息及临床诊疗方案，精准预测患者预后对优化临床决策具有重要的意义[2]。本研究针对出血性脑卒中后的两个重要关键事件，即血肿扩张和血肿周围水肿的发生及发展建立一种基于机器学习的智能诊疗预测模型，进行早期血肿扩张和血肿周围水肿的识别和预测。

1、诊疗模型指标及算法

1)均方误差[3](Mean Squared Error, MSE)是预测数据和原始数据对应点误差平方和的均值，公式为：

为真实值。MSE值越接近于0说明模型的选择和拟合越好，数据预测也越成功。

2)平均绝对误差[4](Mean Absolute Error,MAE)又称平均绝对离差，是所有单个观测值与算术平均值之间偏差绝对值的均值，与其它误差衡量方式相比，平均绝对误差可以避免误差相互抵消的问题发生，从而更准确地反映模型预测的真实误差，MAE值越小说明模型的预测效果越好，公式为：

3)平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)公式：

MAPE的范围为[0,+∞)。MAPE为0%表示完美模型，MAPE大于100%则表示为劣质模型。MAPE的值越小说明预测模型的精确度越高。

4)拟合优度。R2是衡量模型没有捕获到的信息量占真实标签中信息量的比例，公式为：

其中，SST=SSR+SSE,SST(total sum of squares)为总平方和，SSR(regression sum of squares)为回归平方和，SSE(error sum of squares)为残差平方和。R2越接近于1越好，说明引入的因素能够解释数据集的变异。

5)各种算法。①斯皮尔曼相关系数也被称作斯皮尔曼等级相关系数[5],是用于度量两个变量X和Y之间的相关性，其值介于-1与1之间。一般用于分析两个连续变量之间的关系。②支持向量机(Support Vector Machine, SVM)[6]是一个二类分类器。SVM是传统机器学习的一个非常重要的分类算法，是一种通用的前馈网络类型。深度学习(2012)出现之前，支持向量机(SVM)被认为是机器学习中最成功的算法。③随机森林算法(Random Forest, RF)[7]是一种备受瞩目的机器学习技术，核心思想是集成学习，通过构建并组合多个决策树来提高预测的准确性和稳定性。

2、模型预测结果

2.1 血肿扩张的定义判断

是否发生血肿扩张的定义：如果患者后续检查的血肿体积比首次检查增加≥6 mL或≥33%,则判断为血肿扩张。以下是判断步骤：①提取患者首次入院的影像检查流水号、发病到首次影像检查时的数据以及各时间点流水号及对应的血肿体积数据。②根据流水号查找患者首次检查的时间点以及后续影像检查的时间点，筛选出首次检查与后续随访检查间隔时间在48 h内的患者。③依次计算相邻两次检查的血肿体积变化量和百分比。④如果变化量≥6 mL或百分比≥33%则为发生血肿扩张。⑤发病至首次影像检查时间与后续随访影像检查时间点及首次影像检查时间和血肿扩张发生的时间。最终筛选出发病后48小时内发生血肿扩张的23例患者，其中22例患者的血肿绝对体积增加量>6 ml。

图1血肿扩张患者的发病间隔时间

由图1可知，在发病48 h内发生血肿扩张的患者中，出现血肿扩张间隔时间最长的为42.75 h,发生血肿扩张间隔时间最短的为6.53 h,发生血肿扩张的平均时间为20.64 h。

2.2 血肿扩张预测模型

2.2.1 数据相关性分析

根据患者的个人病史及影像检查资料进行血肿扩张概率预测。由于数据繁多，需找出数据中的关键因素或贡献度较大的数据，以简化分析其过程并提高计算效率。为了完成这个目标，利用相关系数矩阵找出所有变量之间的相关性，通过观察矩阵中各元素绝对值的大小判断出两个变量之间的相关程度，如果元素绝对值接近1,所对应的两个变量之间会有很强的相关性，如果元素绝对值接近0,那么两个变量之间的相关性就会减弱。

为检测两个指标线性关系的强弱程度，通常采用皮尔逊相关系数和斯皮尔曼等级相关系数进行分析。只有两个指标满足线性关系后才能使用皮尔逊相关系数，指标数据服从正态分布才能对皮尔逊相关系数进行假设检验，详见图2。

图2判断相关性分析方法的流程图

为了分析数据样本是否适用于皮尔逊相关系数，随机抽取了患者信息中的6个信息进行正态分布检验。由图3可知，6个变量中，只有年龄和90 d的评分等级(mRS)服从正态分布，其余4个信息不服从正态分布，说明该样本数据不适用于皮尔逊相关分析，因此本研究选择斯皮尔曼相关系数进行相关性分析。

为了便于剔除冗余的病患信息，采用黑白二值热力图将相关系数绝对值>0.95的位置标记出来，如图4所示。其中白色代表相关系数的绝对值>0.95的位置，筛选方法以第一列为例。在第一列的所有白色的患者信息中，保留这些患者信息与发生血肿扩张相关系数最高的病患信息，其余的剔除。以此类推，对后面的每一列都进行一次筛选，最终得到7个相关度最高的病患信息，分别是年龄、90 d的评分等级(mRS)、发病到首次检查时间、血压、水肿体积(HM_volume)、大脑中动脉右侧水肿比例(HM_MCA_R_Ratio)和最大二维直径柱(original _ shape _ Maximum2DdiameterSlice)。

图3随机抽样进行正态分布检验的Q-Q图

图4患者信息自相关黑白热力图

2.2.2 血肿扩张概率预测模型

该部分分别使用多元线性回归、随机森林算法和支持向量机来建立根据7个患者信息数据预测其发生血肿扩张概率的模型，通过对各模型MSE、R2指标进行预测效果分析，选择预测效果最佳的模型对患者发生血肿扩张进行概率预测。

用80个样本数据作为训练集，20个样本用作测试集，并根据数据集切分方法分别对预测模型进行训练和测试。

在多元回归分析中，如果因变量和多个自变量的关系为线性时，就属于多元线性回归。多元线性回归是一元线性回归的扩展，其基本原理及方法与一元线性回归分析类似，其回归方程为：

E(yi)=a+bxi1+…+gxin (5)

其中，xi1,xi2,…,xin是自变量，b,c,…,g是回归系数，a是常数，通过确定回归方程的回归系数对因变量y进行预测。

本研究选择IBM SPSS Statistics 26.0对7个患者病历信息与其对应发生血肿扩张事件进行多元线性回归，最终得到的回归方程为：

y=-225.3-0.048x1-0.001x2+0.369x3-0.257x4+0.007x5+0.223x6-0.071x7 (6)

利用回归方程(6)进行测试，预测结果与真实值之间的均方误差(MSE)为0.9365,平均绝对误差(MAE)为1.3356,平均绝对百分比误差(MAPE)为0.1333,拟合优度(R2)为0.56982。从误差的正态分布图可以看出，多元线性回归方法的误差集中在-1附近，说明多元线性回归对样本点的预测误差较大，很多点之间的差距过大导致模型总体精度较低，表明7个患者信息与是否发生血肿扩张是非线性关系，故传统的回归方法并不适用于该模型，为此本研究选取以随机森林和支持向量机的传统机器学习方法对患者是否发生血肿扩张进行预测。使用的是基于Matlab集成的机器学习工具。为了验证算法预测的精确的，排除随机性和预测算法对血肿扩张预测的鲁棒性，分别计算了随机森林和支持向量机对血肿扩张的10次预测结果，详见表1。

表1两种模型运行10次的指标预测结果

表1是两种模型运行10次的均方误差(MSE)、平均绝对误差(MAE)、平均绝对百分比误差和拟合优度(R2)的计算结果，通过数据对比得出支持向量机10次预测结果中的4个指标：最优值、最差值、平均数、中位数都优于随机森林法。4个指标中，随机森林的标准差是最小的，说明它的预测鲁棒性是最优的。

图5支持向量机(SVM)预测误差的分布

图5是利用支持向量机对是否发生血肿扩张进行预测结果误差分布的正态分布图。支持向量机的误差主要集中在-0.5, 0.5之间，说明支持向量机对样本数据有较好的预测效果，总体精度非常高，适用于对患者是否发生血肿扩张的预测。

图6随机森林的预测误差分布

图6是利用随机森林对是否发生血肿扩张进行结果预测的误差分布图。随机森林的预测曲线与真实曲线拟合度低于支持向量机的预测结果，但随机森林的预测误差分布更加集中，这是随机森林鲁棒性好的原因。结果表明，支持向量机在本次研究中的误差率最低，预测精度最高。

3、结束语

本研究针对出血性脑卒中患者的临床诊断问题建立了一种基于机器学习的智能诊疗预测模型。首先，对数据进行预处理，分析患者发病后48 h内是否发生血肿扩张事件，从中筛选出发生血肿扩张的患者，以获得可靠数据样本。其次，随机抽取数据样本，检验是否服从正态分布。通过患者信息和血肿扩张事件相关性系数绝对值>0.95,从23个患者的病案资料中提取出关键数据样本信息建立血肿扩张事件的预测模型，与传统回归方法比较，机器学习方法的均方误差(MSE)提高了62.08%、平均绝对误差(MAE)提高了65.89%、平均绝对百分比误差(MAPE)提高了47.33%,证明机器学习智能诊疗预测模型可提高出血性脑卒中患者的预测准确率。

参考文献:

[1]汪欣,马宝新.多时相头CT血管造影联合CT灌注成像评估急性缺血性脑卒中患者侧支循环中的应用价值[J].黑龙江医学,2023,47(17):2113-2115,2119.

[5]王宝安,张涵璐,邓富金.基于拉依达准则的MMC子模块开路故障定位[J].电力工程技术,2023,42(01):116-123.

基金资助:铜仁市科学技术局基础科学研究项目(铜市科研[2022]72号);

文章来源:王恒,郭俊亮.基于机器学习的出血性脑卒中临床智能诊疗预测模型的建立[J].黑龙江科学,2024,15(10):129-132.