91学术服务平台

您好,欢迎来到91学术官网!站长邮箱:91xszz@sina.com

发布论文

论文咨询

基于SPO语义三元组的自闭症谱系障碍药物知识发现

  2024-03-11    264  上传者:管理员

摘要:目的:运用语义挖掘技术抽取自闭症相关文献中的三元组并构建自闭症药物实体知识图谱,深层次开展自闭症治疗的潜力药物知识发现,同时也为其他疾病发现有价值的潜在治疗药物提供新思路。方法:采用基于统一医学语言系统(ULMS)的工具SemRep、Metamap对自闭症文献记录进行处理并获得自闭症药物实体三元组,使用Neo4j数据库进行知识存储,构建自闭症药物实体知识图谱。基于该知识图谱,采用3种语义路径开展自闭症药物知识发现,并使用临床实验数据库(https://clinicaltrials. gov)对结果进行有效性验证与分析。结果:获得的实体三元组包括1 262个头实体、687个尾实体和18种实体关系;3种语义路径共发现32种药物,筛选出27种自闭症潜力药物,并且19种药物可以在临床实验数据库中验证。结论:基于语义三元组知识图谱开展自闭症药物知识发现可为药物重定位提供一定的理论和方法基础,为传统药物发现提供新的思路,以期为临床实验及其科学研究提供决策支持。

  • 关键词:
  • 知识图谱
  • 神经系统发育障碍
  • 自闭症谱系障碍
  • 药物重定位
  • 语义挖掘
  • 加入收藏

自闭症谱系障碍是由于生物性神经系统发育障碍引起的疾病,主要症状有社会沟通能力障碍、兴趣狭窄及重复行为特征[1]。目前自闭症的发病机制和病因尚未完全明确,且尚无特效药物,目前临床治疗药物多为对症治疗药物,如抗抑郁药、抗精神病药、镇静安眠药,主要针对自闭症症状的治疗药物仅有10种[2]。联合国数据显示,截至目前,全球大概有超过7 000万人正遭受自闭症的困扰[3]。面对庞大的自闭症患病群体,寻找潜力药物和特效药物迫在眉睫。随着计算机技术的发展及各种药物数据库的建立,基于基因药物大数据的药物预测成为重要的预测手段,利用计算机技术可以从现有的海量知识中进行隐性的知识关联,挖掘潜在的关系信息,为科研人员提供有价值的线索。本研究运用计算机技术抽取自闭症相关文献中的三元组并构建自闭症药物实体知识图谱,深层次挖掘潜在的信息,发现自闭症药物治疗潜力药物,有助于完善应用三元组进行知识发现的理论,丰富自闭症药物治疗手段,为药物治疗提供新思路。


1、相关研究


药物知识发现是生物医学领域知识发现的一个分支研究,其本质是发现跨领域知识间隐性关联的特定类型数据挖掘应用[4]。1986年,Swanon[5,6]提出了非相关文献知识发现方法,并利用该方法发现了鱼油治疗雷诺氏病和镁治疗偏头痛的科学假设,且两个假设后来分别被科学实验所证实,当时采用的是人工阅读Med Line文章标题的方法。后来,Swanson[7]开发出了Arrowsmith,它是一种基于文献的交互式知识发现系统,输入查询词查找整个Med Line数据库并收集标题或摘要中出现该词的所有文章。这是基于对标题和短语的共现分析。之后他们采用Arrowsmith来确定雌激素与阿尔茨海默病之间存在的联系,结果表明雌激素的抗氧化活性可能与阿尔茨海默病有关[8]。但这种方法仍需要人工设置停用词列表,并对Arrowsmith生成的许多虚假连接进行分类。到了21世纪初,Hristovski等[9]提出了用于医学领域的交互式发现支持系统BITOLA,术语和关系来自Med Line数据库和统一医学语言系统(the Unified Medical Language System,UMLS),这种方法是基于关联规则来发现医学术语之间的关系。2005年,Hristovski等[10]在BITOLA中整合了有关疾病染色体定位以及候选基因染色体定位的知识,使其更适合于发现疾病的候选基因。与此同时,Weeber等[11]基于ULMS开发了一个支持工具DAD,使用该系统来寻找药物沙利度胺的潜在治疗作用,结果显示沙利度胺可能对急性胰腺炎、慢性丙型肝炎、幽门螺杆菌引起的胃炎和重症肌无力有治疗作用。但这些研究必须人工审查、阅读大量的Med Line引文,而且有大量的虚假关系需人工分类辨别,无法明确、科学地解释发现的关系。2006年,Hristovski等[12]提出使用语义谓词来进一步完善基于文献的知识发现方法,初步试验表明这种方法可以发现以前那些方法无法发现的新关联。Ahlers等[13]的研究进一步证明,采用语义谓词进行知识发现减少了由人工审查的关系数量,并且对发现的结果更具解释力,他们采用这种知识发现模式,发现了5种在抗精神病药物和癌症之间提供联系的生物分子:脑源性神经营养因子、肝脏细胞色素P4502D6(CYP2D6)、糖皮质激素受体、催乳素(PRL)和肿瘤坏死因子(TNF)。可见,药物知识发现经历了从人工阅读文章标题的共现分析到基于关联规则的分析,再到加入语义谓词,可见有效结合语义关系进行实体识别是提高药物知识发现效率的趋势和关键环节。

知识图谱本质上是一种基于图的语义网络,表示不同实体之间的关系,通常以三元组“主语-谓语-宾语(subject-predicate-object,SPO)”的形式表示知识。知识图谱具有强大的语义关联能力、信息组织能力和知识融合能力,可以将实体及实体间的关系属性进行细粒度的语义表示[14]。首先,它可以兼容实体间的语义关系与挖掘的特性,可以根据实际情况预设语义关系或对语义关系进行筛选,使其更符合实际研究情况,符合药物知识发现的逻辑[14];其次,将文献中的语义三元组向ULMS中规范化的术语与语义关系进行映射,具有高标准、高效率与易解释等优点[4];而且可以运用复杂网络和图挖掘算法对其进行挖掘,实现细粒度、深层次、隐含的知识发现。目前,知识图谱在问答系统[15]、推荐系统[16]、机器翻译[17]等领域发挥了重要作用,在金融安全[18]、医学诊断[19]、军用[20]、电力[21]领域展示出很好的应用前景。知识图谱在药物发现领域的应用主要是用于发现药物新的适应证,减少药物不良反应等[14,22,23,24]。

综上所述,基于三元组构建的知识图谱在药物知识发现领域的应用具有一定的依据,对药物再利用、药物开发有一定的意义。在以往基于知识图谱开展药物知识发现研究的基础上,本研究在知识发现全面性、挖掘方法先进性、结果有效性验证方面进行了改进,使之更适用于药物知识发现。首先,知识发现更全面,除共现关系外,采用Neo4j数据库描述实体间的关系,定义了实体间复杂的语义关系,并从语义层面深入分析了实体间的语义关系及其涵义;其次,挖掘方法更先进,采用了基于语义的路径分析方法,并在路径分析中增加了靶点与靶点之间的关系,更符合药物知识发现逻辑;最后,采用临床实验数据库(https://clinicaltrials.gov)对结果进行有效性验证。


2、资料与方法


本研究使用Sem Rep、Metamap工具从自闭症相关文献中识别自闭症相关实体、属性、语义关系,抽取三元组并对三元组清洗、归类后储存在Neo4j图数据库中,采用路径发现深入挖掘自闭症重要药物和潜力药物。

2.1数据来源

本研究所需的实体、属性及语义关系数据均来自Pub Med数据库。检索词为“autism spectrum disorder”[Me SH],检索时限为建库至2023年2月1日,共下载40 662条题录数据。

2.2知识抽取

采用基于ULMS的工具Sem Rep、Metamap进行自然语言处理和术语映射,对获取的文献记录进行处理,对实体、语义关系、属性等信息进行抽取,获得实体在ULMS超级词表中的相应概念及概念间的语义类型和语义关系。Sem Rep、Matamap可自动执行分词、语义分析、短语映射、语义谓词归一化、语义约束等操作。

基于40 662条题录数据,共抽取到224 675条SPO,结合Fiszman等[25,26]提出的SPO清洗原则和相关学者的研究,制定清洗流程:1)否定谓词在本研究没有意义,对否定谓词进行剔除。如NEG_ADMINISTERED_TO,NEG_AFFECTS,NEG_ASSOCIATED_WITH,NEG_CAUSES,NEG_AUGMENTS等。2)考虑到每篇文献的贡献相同,对SPO进行合并,同1篇文献中重复出现的SPO只计1次。3)出现频次太低的SPO无统计意义,选择出现频次≥3次的SPO。4)结合专业知识,筛选与本研究相关的有关疾病、靶点、药物实体SPO,具体语义类型见表1。在数据存储前对三元组进行清洗、归类后人工复审、专家复审。筛选后共获得6 883条SPO,再经过人工复审、专家复审后得到5 140条。

表1实体类别-语义类型对照  

2.3知识存储

使用Neo4j数据库进行知识存储。Neo4j数据库是一种高性能的图数据库,可对数据进行创建、查询、更新、删除等操作,且操作灵活方便。本研究中将自闭症相关药物实体作为节点,标签表示实体属性,实体间的关系作为边,以三元组的形式构建实体与实体间的关系。

2.4知识推理

采用路径发现进行知识发现。通过定义实体属性和关系构建推理规则,根据节点数量可产生不同长度的路径;预定义开始实体和语义关系,设定路径长度,到达药物节点,实现药物预测。此知识发现模式与Swanson经典的ABC发现模式一致,即如果AB之间有直接关联,BC之间有直接关联,那么AC之间就被认为有隐含关联。本研究在前期学者研究的基础上,加入靶点与靶点之间的关联,有研究显示靶点之间的共现同样具有生物学意义,他们之间的共现关系有助于挖掘更深层次的生物学信息[27]。


3、结果


3.1实体及语义关系

本研究获得的SPO语义三元组包括了1 262个头实体、687个尾实体、18种实体关系。将每种实体和实体关系的频次作为属性加入图谱中,用于药物预测。实体间的语义关系见表2。

表2自闭症文献三元组实体间的语义关系

3.2基于“疾病-靶点-药物”语义路径的自闭症药物知识发现

在Neo4j数据库中使用Cypher语句设定搜索条件,以疾病作为头节点,基因或靶标作为中间节点,药物为尾节点。根据实际情况选择以下4种实体作为路径发现的疾病起点:C0004352 Autistic Disorder,C0524528 Pervasive Development Disorder,C1510586Autism Spectrum Disorders/Autism Spectrum Disorder、C0236792 Asperger Syndrome。药物知识发现路径所依据的语义关系见图1。

图1路径中实体间的语义关系  

基于上述“疾病-靶点-药物”语义关系,本研究共采用3条路径进行药物知识发现。1)路径1:基于“疾病-靶标-药物”路径的知识发现。以自闭症相关疾病实体为起点,靶标作为中间节点,药物作为尾节点,设定疾病靶标、靶标药物之间的语义关系,进行药物知识发现。设定语句为match(p1:lable{tag:'disease'})-[r1]-(p2:lable{tag:'target'})-[r2]-(p3:lable{tag:'drug'})WHERE p1.id IN["C1510586","C0004352","C0524528","C0236792"]。测算结果见表3、图2。2)路径2:基于“疾病-靶标-靶标-药物”路径的知识发现。以自闭症相关疾病实体为起点,考虑到靶点之间的相互作用,将2个靶标作为中间节点,药物作为尾节点,设定疾病与靶标、靶标与靶标、靶标与药物之间的语义关系,进行药物知识发现。设定语句为match(p1:lable{tag:'disease'})-[r1]-(p2:lable{tag:'target'})-[r2]-(p3:lable{tag:'target'})-[r3]-(p4:lable{tag:'drug'}) WHERE p1.id IN["C1510586","C0004352","C0524528","C0236792"],r为实体间的语义关系。测算结果见表3、图2。3)路径3:根据设定药物、基因或靶标、疾病之间的语义关系进行知识发现。用单点起源路径(single source shortest path)算法,以自闭症相关疾病作为起点,到达图中其他所有药物实体的最短路径。基于语义路径1,发现了5种自闭症潜在药物;基于语义路径2,发现了6种药物;基于语义路径3,发现了30种药物。见表3。

表3基于3条“疾病-靶点-药物”语义路径的自闭症药物发现结果  

图2基于路径的自闭症语义关系图 

3.3药物发现结果

本研究对基于3条“疾病-靶点-药物”语义路径发现41种自闭症药物,删除重复项后共得到32种药物,其中5种药物(褪黑素、丙戊酸、阿立哌唑、加兰他敏、利培酮)目前已是Drugbank中被批准通用的自闭症治疗药物,其余27种药物可视为本研究基于语义路径方法测算得出的潜力药物(见表4)。

表4基于“疾病-靶点-药物”语义路径的27种自闭症潜力药物  

3.4潜力药物类别分析

根据药物的解剖学、治疗学及化学分类系统(ATC)药物分类,本研究预测的潜力药物主要分布在以下类别:5种属于神经系统精神安定药、7种属于精神兴奋药,3种属于消化道及代谢药物,1种属于呼吸系统药物(见表5)。与已批准自闭症治疗药物的ATC分类基本趋同。

表5 27种潜力药物在ATC药物分类及所属类别  


4、潜力药物的验证


采用临床实验数据(https://clinicaltrials.gov)对研究结果中除了Drugbank数据库中已批准的治疗自闭症药物aripiprazole(阿立哌唑)、melatonin(褪黑素)、valproic acid(丙戊酸)、galantamine(加兰他敏)、利培酮(risperidone)外的27种潜力药物进行结果验证。

4.1已用于自闭症及其相关症状临床治疗的药物

催产素、哌醋甲酯、氟西汀在2017年英国精神药理学会发布的“Autism spectrum disorder:consensus guidelines on assessment,treatment and research from the British Association for Psychopharmacology”临床指南中被自闭症的临床治疗用药收录;纳曲酮在2016年苏格兰校际指南网络公布的“Assessment,diagnosis and interventions for autism spectrum disorders”临床指南中自闭症临床治疗信息收录;哌醋甲酯、氟西汀、氟哌啶醇、奥氮平、丁螺环酮在2020年美国儿科学会“Identification,evaluation,and management of children with autism spectrum disorder”临床报告中的自闭症临床治疗信息收录;促胰液素、镁在2007年苏格兰校际指南网络公布的“Assessment,diagnosis and interventions for autism spectrum disorders”自闭症药物治疗信息收录。作用症状见表6。可见,在27种潜力药物中,已有9种药物在临床中被用于自闭症及其相关症状的治疗,这在一定程度上体现出本研究所采用药物发现方法的有效性和准确性,同时也说明基于语义路径发现的其他药物对于自闭症治疗研究具有较高的可参考价值。

表6 9种潜力药物在临床诊疗指南中的作用症状  

4.2在临床实验数据库得到验证的药物

在27种预测药物中,除了上述9种药物外,另有10种药物均有学者正在研究他们与自闭症治疗的关系及作用,并提供了大量的临床实验证据,进一步表明这些药物可能为自闭症治疗研究具有较大潜力的药物,研究人员可重点关注。见表7。

表7 19种潜力药物在临床实验数据库中的验证结果  

4.3在临床实验数据库中尚不能验证的药物

预测的结果中除上述可以在临床实验数据库中验证的药物外,clomipramine(氯米帕明)、ergocalciferol(麦角钙化醇)、nitric oxide(一氧化氮)、resveratrol(白藜芦醇)、dopamine hydrochloride(多巴胺)、loxapine(洛沙平)、acetaminophen(对乙酰氨基酚)、huperzine B(石杉碱乙)尚未查到其与自闭症治疗的临床实验数据。在Pub Med中查询文献发现,药物clomipramine(氯米帕明)、nitric oxide(一氧化氮)、resveratrol(白藜芦醇)、dopamine hydrochloride(多巴胺)、loxapine(洛沙平)、acetaminophen(对乙酰氨基酚)在预测结果中出现,用于少数或者个别病例临床使用或动物实验,尚未进入临床实验。ergocalciferol(麦角钙化醇)、huperzine B(石杉碱乙)在预测结果中出现,在Pub Med中未查到文献其与自闭症的关系,可能属于未知关联药物,可进一步进行理论研究或实验探究其与自闭症潜在的关系,验证其是否可用于自闭症的治疗。


5、小结与展望


本研究获得自闭症药物相关三元组5 140条,实体1 949种,实体关系18种,构建了自闭症药物知识图谱,定义了自闭症药物实体间的语义关系,并分析了实体间的语义关系及语义涵义。采用路径分析的知识发现方法,通过3种路径“疾病-靶标-药物”“疾病-靶标-靶标-药物”、单点起源路径进行药物知识发现,发现药物32种;筛选出自闭症潜力药物27种,采用临床实验数据库(https://clinicaltrials.gov)对预测的药物结果进行验证分析,验证了19种药物正处于临床研究中,进一步验证了本研究方法的有效性。基于以上研究结果和验证分析,认为本研究方法可为药物重定位提供一定的理论基础,可以为传统药物发现提供新的思路,为以后的临床实验和研究提供决策支持。


参考文献:

[3]中国新闻网.全球7 000万人患自闭症:穿过孤独,与每个TA相拥[EB/OL].[2023-10-02].

[4]胡正银,刘蕾蕾,代冰,等.基于领域知识图谱的生命医学学科知识发现探析[J].数据分析与知识发现,2020,4(11):1-14.

[14]张晗,安欣宇,刘春鹤.基于多源语义知识图谱的药物知识发现:以药物重定位为实证[J].数据分析与知识发现,2022,6(7):87-98.

[15]马莉,刘静海,肖楠桦,等.基于知识图谱的食疗养生知识问答系统的设计与实现[J].电脑知识与技术,2022,18(24):56-59.

[16]李肖,刘德生,常青.推荐系统发展现状及相关军事应用展望[J].兵工自动化,2022,41(10):60-65.

[17]朱继召.基于表示学习的知识图谱技术研究[D].沈阳:东北大学,2018.

[18]刘政昊,曾曦,张志剑.面向应急管理的金融突发事件事理知识图谱构建与分析研究[J].信息资源管理学报,2022,12(3):137-151.

[20]王宏宇,许潇,周育伟,等.基于军事领域知识图谱的智能问答系统设计与实现[J].装甲兵学报,2022,1(2):87-94;102.

[24]安欣宇,于诗睿,张晗.基于知识图谱的精神分裂症药物知识发现[J].中华医学图书情报杂志,2021,30(10):1-7;14.

[26]蔡妙芝,李晓瑛,赵嘉玮,等.基于SPO语义三元组的疾病知识发现[J].数据分析与知识发现,2022,6(1):134-144.

[27]沈耕宇.基于文本的基因间相互关系挖掘系统研究与实现[D].南京:南京农业大学,2012.

[28]刘聪丛.血清素对情绪加工的调节机制[D].成都:电子科技大学,2021.

[29]霍中华,周也琪,包学英.改善肠道菌群治疗自闭症谱系障碍的新思路[J].世界最新医学信息文摘,2020,20(32):63-64.


基金资助:国家社会科学基金一般项目,编号:20BTQ064;


文章来源:吕艳华,赵宏霞,李琦等.基于SPO语义三元组的自闭症谱系障碍药物知识发现[J].护理研究,2024,38(05):796-804.

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

加载更多

我要评论

护理研究

期刊名称:护理研究

期刊人气:18229

期刊详情

主管单位:山西省卫生健康委员会

主办单位:山西医科大学第一医院,山西省护理学会

出版地方:山西

专业分类:医学

国际刊号:1009-6493

国内刊号:14-1272/R

邮发代号:22-130

创刊时间:1987年

发行周期:半月刊

期刊开本:大16开

见刊时间:1年以上

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定