91学术服务平台

您好,欢迎来到91学术官网!站长邮箱:91xszz@sina.com

发布论文

论文咨询

基于PSO-BP的抗乳腺癌药物毒性研究

  2024-04-16    126  上传者:管理员

摘要:为解决新药研发过程中药物的毒性难以准确预估的问题,利用计算机技术,提出一种基于粒子群算法(PSO)优化BP神经网络的二分类预测模型。通过互信息的方法从729个分子描述符中筛选出重要度最高的20特征作为自变量,以药物的毒性值作为因变量,在BP神经网络模型的基础上,首先使用不同的梯度下降算法计算模型的准确率,发现批量梯度下降算法对BP模型的拟合效果较好;其次利用动态变权重的粒子群算法对BP神经网络模型的权重和阈值进行优化选择,结合BP神经网络、SVM和KNN模型进行对比实验,结果显示,PSO-BP模型的准确率、精确率、召回率和F1值明显高于其它模型。因此,PSO-BP模型是一种对抗乳腺癌药物毒性有效预测的方法。

  • 关键词:
  • MN
  • 互信息
  • 梯度下降算法
  • 检测
  • 粒子群算法
  • 加入收藏

1、引言


据2020年世界卫生组织国际癌症研究机构(IARC)发布的全球最新数据显示,2020年全球新发癌症1930万例。其中,乳腺癌新发病例快速增长到226万例,占所有新增癌症患者的11.7%。相较其它癌症而言,乳腺癌的死亡率略低,是实体恶性肿瘤中为数不多可以治愈的一种疾病,尽早发现并配合药物治疗,对治愈乳腺癌意义重大。因此,根据抗乳腺癌药物的分子描述符和药物的毒性值,建立抗乳腺癌药物毒性预测模型,对抗乳腺癌药物的研究具有十分积极的作用。

微核试验(Micronucleus, MN)是检测化合物是否具有遗传毒性的一种方法,它针对药物研发是否安全可靠提供实际依据,若在微核试验中检测出药品具有遗传毒性,则说明此药品对人体不安全,反之则认为此药品安全,在本文中,针对微核试验的结果认定具有毒性的化合物结果用数字‘1’表示,不具有毒性的化合物结果用数字‘0’表示。在这种情况下,建立抗乳腺癌药物毒性的准确预测模型是有价值的。

针对此分类问题,不仅可以采用传统的机器学习[1,2,3]方法构建预测模型,像支持向量机 (Support Vector Machine, SVM)、K近邻算法 (K-Nearest Neighbor, KNN)等,还可以使用BP神经网络[4,5](Back Propagation Neural Networks, BP),深度神经网络等方法。Huang M W[6]等人使用SVM模型对乳腺癌问题进行分类预测研究,针对SVM模型的核函数进行了深入研究,实验中发现在小规模数据集上,基于bagging集成的线性核函数和基于boosting集成的RBF核函数预测效果较好,在大规模数据集上,基于boosting集成的RBF核函数预测效果更优。王红梅[7]等人对药物的异构加权图的混合特征与KNN模型相结合,降低数据之间的不平衡性,实现KNN特征输入的全局优化。Ren Y S[8]等人在对中药中的有毒化合物成分鉴别中,引入BP神经网络模型,为药物的成分比例优化提供了一定方法。

为提高模型的准确率,许多学者还在上述模型的基础上,采用元启发式算法像粒子群算法[9,10,11](Particle Swarm Optimization, PSO)对模型进一步优化。Bingsheng Chen[12]等人对碱性药物的pKa值进行预测时利用粒子群算法代替BP神经网络反向传播算法,提高了模型预测的精度。Zhao J[13]等人在对中药活性药物成分进行预测研究中,综合对比GA-iPLS,BP神经网络和PSO-SVM模型,发现PSO-SVM模型在对非线性问题的处理上性能更优。

针对上述研究分析,本文在对抗乳腺癌药物的毒性研究中,构建了PSO-BP预测模型,将BP神经网络中的负对数损失函数值作为粒子群算法中的自适应度函数,利用粒子群算法优化损失值并更新BP神经网络中的权重和阈值[14],最终实现抗乳腺癌药物毒性的预测。


2、互信息特征选取


为了降低模型分类错误概率,减少模型训练时间,提升模型效果,在对数据进行分析建模之前,需要对数据中存在的多维特征进行特征选取。针对诸多的特征选取方法,互信息[15,16]的特征选择方法不仅计算速度快,而且计算结果不依赖具体模型,因此,本文采用基于互信息的特征选择方法对原始数据进行特征选取。

互信息(Mutual Information, MI)是用来评价一个事件对另一个事件的出现所贡献的信息量。对于给定的数据集{x1,x2,…xn}以及类别标签{y1,y2,…yn},考虑每个特征与类别之间的互信息I(xm,yn),根据互信息的大小对特征进行降序排序,然后可以选择排序最前面的k个特


3、药物毒性预测模型


BP神经网络具有很强大的容错能力和良好的自适应性[17],能够根据原始数据不断积累经验知识,针对不同的问题自动调整一组加权值,但是对于多维特征数据,其预测结果容易陷入局部解,而粒子群算法却能针对此问题进行很好的改进。由此,针对BP神经网络模型对于多维特征数据处理中存在的缺陷,可以引入粒子群算法对其进行优化。

3.1 BP神经网络模型

BP神经网络主要包括三个核心算法[18]:向前传播算法,反向传播算法和梯度下降算法。如图1为三层神经网络模型图。

图1 三层神经网络图   

向前传播算法是根据神经网络模型的数据流动方向利用式(2)对各层输入值进行计算,最终得到输出值。

式中,a(l)为第l层网络的输出矩阵;f为激活函数;w和b为参数。

反向传播算法则是为了知道神经网络中参数的变化,利用损失函数求出每一层之间的误差,从而可以获得参数的梯度。

梯度下降算法[19]在神经网络中的作用是根据反向传播获得的参数梯度,去寻求最小的损失函数值。常见的梯度下降算法主要包括批量梯度下降算法(Batch Gradient Descent, BGD),随机梯度下降算法(Stochastic Gradient Descent, SGD)以及小批量梯度下降算法(Min-Batch Gradient Descent, MBGD),基本公式如式(3)式所示

式中,L(θ)表示损失函数;θ表示变量;η表示学习率。

3.2 PSO

粒子群算法[20,21,22]20-22]是群智能算法中的一种,是通过模拟鸟类觅食行为而设计的,其优势在于容易实现,并且没有过多的参数需要调节,目前广泛应用于神经网络训练等领域。设定在D维空间中有N个粒子的种群,Xi=(xi1,…xiD)表示第i个粒子的位置,Vi=(vi1,…viD)表示第i个粒子的速度,i=1,…N,群体中的粒子会根据式(4)(5)实现自身速度和位置的自动更新,并计算适应度值确定个体和全局最优值。

式中,α为惯性因子;c1,c2为学习因子;r1,r2为[0,1]上的随机数;pi为第i个粒子搜寻的最好位置;gi为整个群体搜寻的最好位置;t为迭代次数。

为了增强粒子的搜索能力,可以采用动态变权重方法设计惯性因子α,其计算公式如式(6)所示

式中,[αmin,αmax]为变权重取值范围,Tmax为最大迭代次数。

3.3 构建PSO-BP模型

本文通过粒子群算法代替反向传播过程优化BP神经网络模型[23]23],其主要流程图如图2所示:

1)建立BP神经网络模型,并初始化其相关参数;

2)初始化粒子群中的速度和位置,设定相关参数,并计算适应度值;

3)根据适应度函数判断是否达到最优,对粒子位置和速度更新,将获取的最优值传递给BP神经网络中的权重和阈值;

4)是否满足迭代条件;

5)未满足迭代条件,继续步骤3),对BP神经网络进行训练,获得最优的损失值;

6)得到最优权值和阈值。

图2 PSO优化BP神经网络流程图   


4、模型实验分析


本文采用的抗乳腺癌药物药性数据来源于阿尔伯塔大学的DrugBank药物分子数据库,其中的数据样本包括有1974个样本化合物和对应的729个自变量以及1个目标变量‘MN’,‘MN’列中‘1’代表该化合物经过微核试验之后认定其具有遗传毒性,‘0’代表该化合物不具有遗传毒性。

4.1 特征选择

实验中,为提高模型收敛速度以及模型的精度,首先对原始数据进行标准化处理,使数据结果落到[0,1]区间,数据标准化的公式如式(7)所示

为使数据的原始信息最大程度的保留,并降低神经网络训练的时间,对输入的特征数据降维处理。由于数据中存在大量数值为0的列数据,先将数据中的0列值全部删除,其次通过互信息方法进行特征选择,根据特征的重要度,选取包括“BCUTc-11”在内的前20个变量值。最后,将处理好的数据按照8:2的比例划分为训练集测试集,训练集用来训练模型,测试集用来对模型进行评估。其中相关特征的重要度如图3所示。

图3 数据特征重要度  

4.2 模型参数的相关设定

在BP神经网络中,神经网络设置为三层,隐藏层之间通过Sigmoid激活函数将结果传给下一层,设定损失函数为负对数似然损失函数,其能够针对二分类问题将输出层的预测值转换成概率的负对数,使得每个分类都最大化,预测其所属正确的分类概率,其计算公式如式(8)所示

针对神经元个数,习惯上,隐藏层中神经元的个数一般为输入层神经元个数的1~1.5倍,本文将隐藏层的神经元个数设置为30,在梯度下降算法中的学习率设置为10-3;在粒子群算法中,设定α取值范围是[0.4,0.8],c1=1.6,c2=2,适应度函数为负对数似然损失值,粒子的个数设置为60。

4.3 评估标准

为了对比不同模型之间的性能,本文采用混淆矩阵以及ROC曲线图对模型的优良进行评价。混淆矩阵中相关的评估指标准确率、精确率、召回率、F1得分计算公式分别为

而ROC曲线是以真阳性率(TPR)为纵坐标,假阳性率(FPR)为横坐标绘制的曲线,是用来研究学习器泛化性能的有力工具,针对ROC曲线图,若一个学习器的ROC曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者。真阳性率和假阳性率计算公式分别如式(13)(14)所示

=

式中,TP表示预测为正的正样本,FP表示预测为正的负样本,FN表示预测为负的正样本,TN表示预测为负的负样本。

4.4 预测结果分析

为了了解不同的梯度下降算法在BP神经网络模型中对于药物毒性的预测准确率的差异性,对处理后的数据采用不同的梯度下降算法进行预测实验,在训练集中,设定相同的迭代次数3000,其中图4展示了不同梯度下降算法下在本文数据集下的损失函数值收敛曲线图,表1给出不同梯度下降算法下BP神经网络模型的准确率。从图4中可以看出,在三种不同梯度下降算法中,模型的损失函数值随迭代次数的增加而减少,SGD-BP算法与MBGD-BP算法损失值的收敛点基本保持持平,在相同的迭代次数下,BGD-BP算法的迭代效率处于领先,首先取得较低的损失函数值,且结合表1的结果,可以进一步说明BGD-BP算法对于本文数据的拟合效果较好。

图4 损失函数迭代图   

表1 不同算法结果

为了进一步提高模型的准确率,使用PSO-BP和BGD-BP模型进行对比实验,发现PSO-BP模型的准确率高于BGD-BP模型,具体结果如表2所示。

表2 不同模型结果

为更好的验证其结果的优良性,实验中还引入了传统的机器学习方法SVM,KNN,并且在本文内容的基础上引入粒子群算法对SVM模型中的参数C进行优化[24],进行对比实验,最终展示的ROC曲线结果如图5所示。

图5 ROC曲线   

从图5可以明显看出,PSO-BP模型的ROC曲线基本上包住了其它模型的ROC曲线,从而能够说明,针对本文的问题,PSO-BP模型优化的效果更好。

通过数值的方式能够更清晰展示出模型的优良性,经过多次实验,计算出不同模型在测试集上的准确率等评估指标值,最终结果如表3所示。

表3 不同模型结果对比表(单位:%)

从图5、表2和表3综合分析中可以看出,当满足相同的迭代次数时,PSO-BP模型的准确率明显高于BGD-BP模型,提升约5.26%;PSO-BP模型在准确率、精确率、召回率以及F1得分4种评价指标度量下,其结果都高于SVM,KNN,PSO-SVM模型,从而可以认为PSO-BP模型在针对本文的分类预测问题上具有较好的性能。


5、结束语


本文在对抗乳腺癌药物的药性预测研究中,在BP神经网络模型中使用不同的梯度下降算法对模型进行评估,发现BGD-BP算法的预测效果较好;为进一步提高预测结果的准确率,提出使用粒子群算法代替反向传播优化BP神经网络模型中的权重和阈值,并在实验中引入传统的机器学习模型进行相应的对比实验分析,实验结果表明PSO-BP模型在准确率、精确率、召回率和F1得分上都有着很好的表现,可以为药物毒性预测研究提供一定的方法。


参考文献:

[4]侯玉梅,朱亚楠,尹福在.基于支持向量机和人工神经网络的2型糖尿病患病风险预测研究[J].现代预防医学,2017,44(11):1921-1924.

[5]俞庆英,李倩,陈传明,林文诗.基于BP神经网络的异常轨迹检测方法[J].计算机工程,2019,502(7):229-236.

[7]王红梅,郭真俊,郭放,张丽杰.基于混合特征预测药物-靶标相互作用的K近邻模型[J].长春工业大学学报,2021,42(6):547-552.

[15]霍纬纲,王星,梁锐.融合互信息估计和对抗自编码器的异常检测[J].北京邮电大学学报,2021,44(5):28-34.

[16]王利,许豪,舒宝,义琛,田云青.利用互信息和IPSO-LSTM进行滑坡监测多源数据融合[J].武汉大学学报(信息科学版),2021,46(10):1478-1488.

[21]肖云波,范菁,张宜,乔钰彬.基于改进粒子群算法与油中溶解气体的变压器故障诊断的研究[J].电子测量技术,2021,44(18):122-128.

[22]燕乔,高名杨,梁明浩,王硕.改进粒子群-极限学习机模型在面板堆石坝运行期沉降预测中的应用[J].水电能源科学,2021,39(10):110-113.


基金资助:宁夏自然科学基金(2021AAC03230);


文章来源:秦传东,廖奥林.基于PSO-BP的抗乳腺癌药物毒性研究[J].计算机仿真,2024,41(04):320-324.

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

加载更多

我要评论

肿瘤预防与治疗

期刊名称:肿瘤预防与治疗

期刊人气:1254

期刊详情

主管单位:四川省卫生健康委员会

主办单位:四川省肿瘤医院

出版地方:四川

专业分类:医学

国际刊号:1674-0904

国内刊号:51-1703/R

邮发代号:62-142

创刊时间:1973年

发行周期:月刊

期刊开本:16开

见刊时间:10-12个月

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定