首页 > 论文范文 > 医药卫生论文 > 药学论文 > 中药学论文 > 基于BERT-CRF的中药材属性抽取方法研究

基于BERT-CRF的中药材属性抽取方法研究

2025-01-02 65 上传者：管理员

摘要：在自然语言处理领域，属性抽取技术面临着精度不高、大规模训练数据获取困难等问题。针对这些问题提出一种基于BERT-CRF的中药材属性抽取方法，将属性抽取任务转化为序列标注任务，结合预训练语言模型BERT的丰富语义信息与条件随机场CRF对上下文特征的理解能力，有效提升属性抽取的精度，通过书籍与网络数据构建了一个中药材属性抽取数据集，将BERT-CRF属性抽取方法用于公开数据集MSRA和中药材属性抽取数据集上。结果显示，该模型在精确率、召回率和F1分数等方面相比于其他序列标注模型均表现出了显著的优势，证实了其在中药材属性抽取任务中的有效性。

关键词：
信息利用效率
属性抽取
条件随机场
自然语言处理
预训练语言模型
加入收藏

属性抽取(Attribute Extraction, EA)作为自然语言处理(NLP)领域中的关键子任务也是构建知识图谱的基础性工作，其聚焦于从庞大文本集合中自动识别并提取预设或特定类别的实体属性信息，以此作为从无序文本到有序知识转换的桥梁。属性抽取的重要性在于它推动了自动化数据处理的发展，显著提升了信息利用效率，对于推动非结构化知识向结构化知识转换的过程(如建立知识图谱)具有无可替代的价值与作用。但由于属性表述语言具有多样性、灵活性和开放性，精准且全面地实现属性抽取仍具有较高难度[1]。

图1属性抽取过程

随着深度学习技术的迅猛发展，属性抽取领域的研究正在不断深化，致力于开发更高效、更准确的抽取算法，以满足日益增长的信息处理需求。该技术在NLP和知识图谱构建领域中的核心地位愈发凸显，其不仅能够从海量非结构化文本中挖掘出宝贵且细致的实体属性信息，在信息的结构化加工、数据利用效率的提升及构建丰富且深度的知识图谱方面均发挥着至关重要的作用。通过深度学习方法的引入，属性抽取技术得以优化，使人们能够更准确、高效地从文本中提取实体属性信息，为知识图谱的构建和优化提供有力的技术支持和理论依据。

在中医药领域，数千年的传承与发展形成了海量的文献积累，这些文献中蕴含着丰富的知识资源。但中医药知识体系普遍存在碎片化问题，阻碍了知识的有效整合与利用。为了克服这一问题并促进中医药信息的高效存储与管理，聚焦于运用先进的自然语言处理技术—特别是结合预训练模型与条件随机场的模型BERT-CRF在中医药领域中进行属性抽取任务，为中医药的智能化、信息化、数字化转型提供强有力的技术支撑。主要工作如下：①提出一种基于BERT-CRF的属性抽取模型，如图1所示。该模型使用预训练语言模型BERT结合CRF层，显著提高了模型在中药材数据上的性能。②系统地收集了各类书籍资料，利用相关技术，从在线资源中收集丰富的中药材信息，通过精心设计标注策略，生成一个涵盖生长环境、药用部位、功效类别等属性的中药材属性抽取数据集。这一数据集丰富多样，涵盖了广泛的中药材种类，为后续的模型训练和评估提供了坚实的基础。③在MSRA公开命名实体识别数据集与中药材命名实体识别数据集上，将多个流行命名实体识别模型与本方法进行效果对比，结果证明该模型相对于传统的命名实体识别模型具有性能优势。

1、相关工作

1.1属性抽取

属性抽取(Attribute Extraction)是自然语言处理领域内的一项关键任务，专注于从非结构化的文本信息中精准抽取出与指定实体相关的属性信息，如人物的年龄、公司的创立日期、产品的价格等。该任务广泛应用于知识图谱构建、信息检索优化、问答系统增强、商业智能分析等多个场景。

属性抽取技术的发展经历的几个关键阶段如图2所示，从初期依赖于手动制定抽取规则和特征工程的方法，到借助统计模型与使用机器学习进行抽取的方法，直至目前基于深度学习与预训练语言模型的方法。

图2属性抽取技术演进阶段

Fig.2 Evolution stage of attribute extraction technology

基于规则和特征工程的方法侧重于利用领域专家的知识和手动设定的规则来识别和提取属性信息。Hu等[2]通过观察大量文本数据分析总结出显示属性词大多数情况下为名词或名词性短语，提出使用该名词性关联规则进行属性抽取任务。Ghani等[3]利用监督学习的方式抽取出与商品相关的属性值。

随着机器学习方法的引入，属性抽取进入了自动化特征学习的新阶段。基于传统机器学习的方法通常使用有监督学习的方式抽取属性值[4]。这些模型能够从标注数据中自动学习并优化抽取策略，提高任务效率与泛化能力。Jakob等[5]将CRF模型应用于评论文本的商品属性抽取任务，Hamdan等[6]使用CRF进行BIO格式的序列标注进行属性抽取任务，曾道建等[7]通过训练CRF序列标注模型及上下文分类器进行属性抽取，王仁武等[8]采用GRU+CRF方法进行实体-属性联合抽取。但对大量标注数据的依赖及在深层语义理解上的局限性成为了其主要障碍。

基于深度学习和预训练语言模型的方法，如循环神经网络(RNN)、双向长短时记忆网络(Bi-LSTM)及近来风靡的BERT、ELMo、GPT系列模型改变了属性抽取，其中BERT是最常用的预训练模型[9]。Collobert等[10]提出使用神经网络进行实体识别的方法，Li等[11]结合双向长短期记忆网络与注意力机制来完成属性抽取任务，蒋焕剑[12]提出一种基于LSTM的多实例多标签属性抽取模型，苏明星等[13]结合预训练模型BERT与多层交互注意力进行商品属性抽取，孙国峰[14]使用BERT-BiLSTM-CRF模型进行农作物属性抽取。这些模型通过更加现代的网络结构与方法提取更深层的文本特征与语义信息，极大提升了属性抽取的精确度与鲁棒性。

1.2 BERT模型

BERT(Bidirectional Encoder Representations from Transformers)[15]模型是谷歌公司在2018年提出的一种先进的预训练语言模型，其在预训练任务中从大规模的无标注文本中学习丰富的通用语言知识和语义信息，只需根据不同的自然语言处理任务，使用少量的标注数据就可以使模型对下游任务进行微调，从而显著减少进行下游任务所需的人力与资源。BERT基于Transformer[16]架构，采用多层双向的Transformer编码器对输入文本进行编码，使用两种创新的预训练任务，即掩码语言模型(Masked Language Model, MLM)和下一句预测(Next Sentence Prediction, NSP)。通过这两种预训练任务，BERT模型可以在无监督的情况下获取丰富的语言表示，从而降低下游任务微调所需的数据量和成本，显著提升下游任务的效果。

1.3条件随机场(CRF)

条件随机场(Conditional Random Fields, CRF)[17]是一种用于序列标注的无向概率图模型，广泛应用于自然语言处理(NLP)中的多种任务，如命名实体识别(NER)、词性标注、分词、句法分析及生物信息学中的基因序列分析等。CRF通过直接建模条件概率P(Y∣X)在给定观测序列X的条件下预测标签序列Y的概率分布，从而克服隐马尔可夫模型(HMM)和最大熵马尔可夫模型(MEMM)中的标注偏差问题。CRF能够捕捉文本序列中各单元之间复杂的依赖关系，这在处理自然语言时尤为重要，可使模型输出的序列更加符合现实规则。

CRF中采用了多重高效的算法，如维特比算法(Viterbi Algorithm)用于最优标签序列的解码，前向-后向算法(Forward-Backward Algorithm)用于计算边缘概率。CRF通过结合这些基于动态规划的择优策略，基于其对序列标注任务的适用性能有效提升模型进行序列标注属性抽取任务的精度。近年来，随着深度学习的发展，结合CRF的神经网络模型(如BiLSTM-CRF)在序列标注任务中表现出色。

2、基于BERT-CRF模型的属性抽取

2.1任务定义

研究目标是构建一个基于BERT和条件随机场(CRF)的混合模型，用于属性抽取。属性抽取任务旨在从文本中识别并提取特定实体的属性信息，如产品评论中的产品特征、客户评论中的服务质量等。

在已知属性名的情况下进行属性抽取任务，仅抽取属性内容，属性被预先定义并保存在属性列表中，属性值是从文本中抽取到的。该过程类似于命名实体识别任务，故采用序列到序列的抽取方式。

图3序列标注方式展示

序列标注过程如图3所示，输入是自然语言文本序列，如一句话或一段话。每个句子由若干个词(token)组成。输出是与输入序列对应的属性标签BIO序列。标签序列的每个标签表示相应词的属性类别，遵循BIO标注格式(如B-LOC, I-LOC, O),其中B表示属性的开头，I表示属性的内部，O表示非属性部分。具体的标签类别取决于待抽取的属性种类。

本任务应用了序列标注任务常用的评估指标，包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1值(F1-Score)。这些指标帮助提升评估与对比模型在识别属性边界和类型方面的准确性。

2.2数据集构建

以互联网网站为数据主要来源，通过以下步骤构建数据集：①获取如Wikipedia等知识网站内容，补充一定的书籍数据为原始数据集。②对原始数据集进行清洗、去重，去除原始数据集中不相关或重复条目，对符号、错字、乱码进行处理。③将数据集中的文本按照一定的长度与规则进行划分，避免出现过长的文本，影响模型调用。④按照BIO标注方法对其中“药品-ENT、产地-LOC、颜色-COL、药性-PROP、主治病症-USE、功效-EFF”等属性进行标注，得到完善的数据集。

表1中药材数据集中各属性数量

2.3 BERT-CRF模型

图4 BERT-CRF模型进行序列标注的过程

2.3.1 BERT模型

如图4所示，在接收到需要进行标注的文本序列后，模型使用BERT分词器对每个句子的词进行分词与编码，BERT分词器基于WordPiece分词法将输入语句分割为词，将每个词(或子词)的索引转换为词向量(word embeddings)、位置向量(position embeddings)和分段向量(segment embeddings)的组合。BERT的输入表示定义为：

E=Eword+Eposition+Esegment(1)

转化后分词器会在E中添加特殊标记，在句子的开头添加特殊的起始标记[CLS],在句子结束处添加结束标记[SEP]。

BERT模型通过双向Transformer架构生成每个词的上下文相关表示向量。对于每个输入句子X={x1,x2,…,xn},BERT输出一个相同长度的表示序列H={h1,h2,…,hn},其中hi表示词xi的上下文表示。

BERT模型由Transformer模型的Encoder部分组成，包含多个层，每个层包含一个自注意力机制和一个前馈神经网络。具体运算过程如下：

自注意力机制。每个词的表示通过自注意力机制与句子中所有其他词的表示进行交互，计算得到新的表示。自注意力机制公式为：其中，Q,K,V分别表示查询、键和值向量，dk是向量维度。

前馈神经网络。将自注意力机制的输出通过两个全连接层进行非线性变换，得到词的新的表示向量。

经过多个层的迭代计算，BERT模型生成了每个词的上下文相关表示向量H={h1,h2,…,hn}。

2.3.2 CRF层

从BERT模型中提取最后一层的隐藏状态作为特征输入到CRF层。这个隐藏状态向量不仅包含了当前词的信息，还包括了该词在句子中的上下文信息，从而使后续的CRF层可以有效地进行序列标注。在BERT的输出层上添加CRF层，用于捕捉标签之间的依赖关系，从而提高实体识别的准确性。经过CRF层后，模型将输出最终的预测序列。

3、实验

3.1数据集

选取了两种数据集进行实验以验证模型效果，即公开的MSRA-NER数据集和构建的中药材领域数据集。

MSRA数据集。这是中文自然语言处理(NLP)领域中广泛使用的一个有代表性的标准数据集，其由微软亚洲研究院发布，专门用于训练和评估命名实体识别模型，通常用于机器学习和自然语言处理领域的研究。MSRA数据集是中文自然语言处理领域中非常受欢迎的基准数据集之一，被广泛用于学术研究和工业应用，其结果在中文NLP领域中具有较高代表性。

中药材数据集。考虑到中药材领域的特殊性和实际应用需求，通过搜集Wikipedia等互联网网站中中药材相关信息，结合书籍构建了一个中药材数据集，主要聚焦于中药材领域的专有名词和术语，如中药材名称、颜色、药性、主治病症、功效等。

3.2实验环境与设置

实验采用chinese-bert-wwm-ext预训练模型，使用Huggingface-Transformer库加载模型。epoch设置为30,batchsize设置为16,优化器为AdamW。在bert的tokenizer参数设置中补全长度至批次中最大长度，均在24 G显存的Nvidia P40显卡上使用CUDA进行训练。

3.3评估指标

在采用序列标注方式的知识抽取任务中，常见的评价指标有准确率(Precision)、召回率(Recall)和F值(F-score) ,它们常被用来衡量所采用的知识抽取模型的性能。

准确率：F值是用来衡量二分类模型精确度的一种指标，可以兼顾分类模型的精确率和召回率两个评价指标。当准确率和召回率都很重要时可认为二者有相同的权重，即β= 1,则称此时的F值为F1值。

3.4实验结果

基线模型。采用NER任务中常用的几个模型作为对比基线，包括从深度学习到使用预训练语言模型的方法。

MSRA。在公开数据集MSRA上评估模型在属性抽取任务中的性能，进行3次重复测试，并对3次重复结果取平均值。将模型与属性抽取任务中流行的几种模型进行比较，包括传统的BiLSTM-CRF模型、融合了BERT的BERT-BiLSTM-CRF模型及单独使用BERT模型。如表1所示，结果表明在通用领域中该模型在F1分数上都显著超过了其他模型。其中，对比BiLSTM-CRF方法，本模型具有最高4.1的F1值领先，证实了其能有效应用于通用领域，相较于常见模型具有性能优势。

表2在MSRA公开数据集中各模型的表现对比

中药材数据集。在中药材数据集上评估了模型性能，该数据集专注于中医药领域的属性抽取，具有挑战性。实验采用与公开数据集相同的参数，考察模型在专业领域内的适应性。结果如表2所示，该模型对比所有模型都显示出了性能优势，特别是在与BiLSTM-CRF进行对比时具有12.3的F1值，优势显著。在中药材领域的应用进一步验证了本模型对于专业知识的有效捕捉能力及其在小样本学习环境下的鲁棒性。

表3在中药材小样本情景下各模型的表现

4、结束语

提出了一种基于BERT-CRF的中药材属性抽取模型，有效克服了传统属性抽取模型在精确度和领域适应性方面的局限。该模型在MSRA-NER公开数据集及专注于中药材领域的特定文本上均显示出显著的性能提升，为自然语言处理技术与其他领域的结合提供了新的解决方案。未来，可将此模型应用于更广泛的领域和更复杂的任务中，以进一步探索其潜力和局限。

参考文献:

[1]徐庆婷,洪宇,潘雨晨,等.属性抽取研究综述[J].软件学报,2023,34(02):690-711.

[4]张世奇,马进,周夏冰,等.基于预训练语言模型的商品属性抽取[J].中文信息学报,2022,36(01):56-64.

[7]曾道建,来斯惟,张元哲,等.面向非结构化文本的开放式实体属性抽取[J].江西师范大学学报(自然科学版),2013,37(03):279-283,305.

[8]王仁武,孟现茹,孔琦.实体—属性抽取的GRU+CRF方法[J].现代情报,2018,38(10):57-64.

[9]李莉,奚雪峰,盛胜利,等.深度学习中文命名实体识别研究进展[J].计算机工程与应用,2023,59(24):46-69.

[12]蒋焕剑.基于深度学习的属性抽取技术研究[D].杭州:浙江大学,2018.

[13]苏明星,吴厚月,李健,等.基于多层交互注意力机制的商品属性抽取[J].数据分析与知识发现,2023,7(02):108-118.

[14]孙国峰.基于文本的农作物属性抽取技术研究[D].长沙:湖南农业大学,2023.

基金资助:2022年度湖南省社会科学成果评审委员会课题成果(XSP22YBZ024);

文章来源:乔波,袁铨,周子濠.基于BERT-CRF的中药材属性抽取方法研究[J].黑龙江科学,2024,15(24):84-88.