首页 > 论文范文 > 工程工业论文 > 电力工业论文 > 基于改进剪枝策略的专业大数据主特征提取方法研究

基于改进剪枝策略的专业大数据主特征提取方法研究

2025-03-11 9 上传者：管理员

摘要：电力工程信息的智能化检测与分析大多是基于数字类型的数据来展开的，而对于工程建设中文本型数据的检测模型而言，在检测准确度与检测速度方面均存在较大的改进空间。针对这一问题，文中构建了一套基于改进剪枝策略的专业大数据主要特征提取模型，以提高对专业文本数据的处理能力，实现对电力工程项目的全面评估。该模型通过深度神经网络对电力工程数据进行特征提取，并对数据特征进行结构分析，通过数据特征与风险库信息的相似度匹配，实现了对电力工程信息的风险判别。以某电力工程项目文本数据进行的评估测试结果表明，文中所提方法能够准确地提取出电力工程文本型数据的关键特征，并且可以分析挖掘出数据所蕴含的风险。

关键词：
剪枝策略
大数据分析
文本数据
电力工程
电力工程建设数据
加入收藏

在电力工程项目的实施过程中会产生大量的电力工程建设数据[1-2],而对相关数据进行分析可以深入挖掘已有数据的深层价值,实现工程建设的提质增效[3-5]｡随着大数据和自然语言处理等技术的进步,通过人工智能技术对工程数据进行分析已成为研究热点｡采用人工智能技术,文献[6]实现了电力企业文本数据自动对比和风险评估,降低了人工处理的时间与成本,并且提高了审核的准确性;文献[7]实现了自动识别数据中可能存在的漏洞､模糊条款等,并提出相应的建议和预警｡尽管人工智能技术在数据审核方面有着广泛的应用,但其仍有较大的改进空间｡

针对此,提出了一种基于改进剪枝策略的专业大数据主要特征提取方法｡该方法通过深度神经网络(DeepNeuralNetwork,DNN)对工程数据进行深层挖掘,采用特征选择和特征剪枝两种技术,对神经网络模型进行优化,实现了对电力工程数据的快速特征提取｡此外,通过对工程与风险库数据进行相似性匹配,还实现了工程信息的风险隐患分析及评估｡

1、基于神经网络的文本信息识别模型

当前对文本内容的审核分析研究模型主要分为基于规则与基于机器学习的两种｡随着自然语言处理技术[8-9]的进步,审查内容的复杂度逐渐提高,从基本的格式审查已发展到对文本风险的审查｡该文采用语义检索对文本数据进行关键词配对,实现了语义语法的统一匹配｡

该模型采用文本浅层语义进行构建,具体流程如图1所示｡

图1语义构建流程图

对文本信息进行语义匹配后,采用深度学习算法(DeepLearning,DL)分析其相关权重[10]｡关键词的TF权重与其在文本中出现频率成正相关;IDF权重与该关键词在不同样本中的出现频率成负相关｡

根据文本数据中所蕴含风险的影响后果对模型风险识别等级进行划分,主要分为低风险､中风险和高风险共3个等级｡

通过对文本进行抽象,进而与风险条款库进行匹配,匹配规则如式(1)所示:

其中,NULL表示为空;|表示或,当存在一种关键词时即为成立｡通过上述匹配规则对逻辑关系进行分析,当文本中所有相应逻辑位中关键词满足条件后,即可判定为风险匹配成功｡相应的匹配关系如图2所示｡

图2风险文本检查流程

在对文本进行检测时,首先,对文本数据进行关键词提取,从而构建不同关键词之间的实体关系;然后,通过将检测得到的关键词及其逻辑关系与风险库进行匹配检测,判别文本条款是否存在风险,并根据匹配相似度判断相应的风险等级;最后,当所有关键词及其逻辑关系匹配完成后结束检测｡文本信息审查流程如图3所示｡

图3文本信息审查流程图

2、基于剪枝策略的模型优化

剪枝模型[11-13]是一种在机器学习中常用的技术,主要用于减少决策树或其他模型的复杂性,并提高模型的泛化能力｡剪枝模型的目标是通过删除或合并决策树中的部分节点和子树,以此来降低模型的复杂度,同时保持并提高模型的预测准确性｡

剪枝模型通常包括生长和剪枝两个阶段｡在生长阶段,决策树会根据训练数据逐步生长｡通过选择最佳的分裂点和特征,决策树会不断地划分数据集,直至达到预定的停止条件｡在该阶段,决策树可能会过度拟合训练数据,导致模型在未知数据上的表现并不理想｡

在剪枝阶段,剪枝模型会通过对决策树进行修剪来降低过拟合风险｡剪枝的依据通常是使用验证集或交叉验证等方法,来评估修剪后模型的性能表现｡

在采用神经网络[14-16]对文本进行匹配时,首先将文本输入到训练好的剪枝前模型中,此时模型得到相应的数据特征A｡根据A所对应的期望值,按照数学期望的升序顺序对数据特征A进行排列,同时按照相应剪枝比率对数据特性所对应的卷积核进行裁剪｡通常情况下,卷积核的特征期望值与所蕴含的信息量成正相关,因此需要对蕴含信息量较少的卷积核进行裁剪｡

设神经网络模型共有M层,Si､Si+1分别表示第i层卷积核的输入与输出的特征数,同时,该模型的第i层卷积核数量可表示为Li+1｡卷积核输出的特征数据期望值用Eij表示,其计算方式如式(2)所示:

该文基于稀疏化尺度因子b进行卷积通道选择,采用这种方式对卷积核输出特征进行处理,其计算公式可用式(3)表示:

其中,zin表示输入数据;zˉ表示卷积核输入数据的平均值;σ2表示相应数据的方差;ε为计算系数｡

对于特征向量的缩放因子,设其缩放因子为γ,则其平均缩放因子为:

通过对缩放因子进行正则化,其分布会向0的方向稀疏,以增强对于卷积核不同重要程度的区分度｡在网络训练过程中,重要卷积核的缩放因子会向平均值正方向偏移,而不重要的卷积核缩放因子会向0偏移｡而超参数t能够对网络的稀疏程度进行控制｡

图4对剪枝策略的流程进行了说明｡根据卷积核输出的特征数据计算相应卷积核期望,通过对期望进行排序,剪裁掉期望较小的卷积核,实现了对神经网络结构的优化｡其中,所剪裁的卷积核数量由该卷积核所在的神经网络层的总卷积核数量及剪枝率来确定｡

图4剪枝策略的流程

3、算例验证

为验证文中所提基于改进剪枝策略的专业大数据主要特征提取模型在合同风险审核方面的准确性与有效性,文中采用50组合同样本进行分析,其中每组样本包含10个合同｡通过与传统文本分析方法进行对比,说明了所提模型的有效性｡算例验证的环境配置如表1所示｡

表1算例验证环境配置

在模型训练过程中,首先,将样本数据中的文本语言进行碎片化处理,以便输入模型｡对于每一条输入数据,均通过神经网络对其进行特征提取,并将文本的特征与风险库数据进行相似性匹配,判断可能存在的风险｡接着,采用剪枝策略对卷积核进行裁剪,以达到模型参数量与训练效果的最优解｡最后,利用测试样本对训练后模型进行验证｡数据风险识别结果如表2所示｡

表2模型识别结果对比

通过对表2进行分析可知,该文模型对于可能直接引起经济损失的风险条款均判别为高风险,相比于其他方法识别灵敏度更高,对于电力工程项目的事前风险提示更为准确｡与其他方法相比,所提方法不仅考虑了对方履约能力的因素,同时也考虑到己方履约能力出现波动时,相关约定所隐含的风险｡

基于神经网络的关键词-逻辑提取模型训练时的损失变化如图5所示｡刚开始模型损失较高,说明此时该神经网络未能有效提取出与风险相关的特征参数;随着训练迭代次数的增加,模型损失逐渐降低,这表明模型对文本信息的提取能力正在逐渐提高｡当损失趋于一个稳定水平时,说明模型对输入信息的特征提取达到收敛｡

图5模型训练过程损失变化图

同时,该文在新一组模型训练中加入剪枝策略并设置不同的剪枝率,具体如表3和表4所示｡训练结束发现,相比于传统神经网络模型,改进模型在收敛速度及最终损失稳定水平方面均有所提高｡此外,对模型参数量进行统计可以看出,采用剪枝策略模型的参数相比于传统神经网络有所降低,且参数量与剪枝率呈现出负相关的关系｡

表3不同模型参数量对比

表4该文模型不同剪枝率参数量对比

4、结束语

该文通过构建基于改进剪枝策略的专业大数据主要特征提取模型,采用深度神经网络和语义神经网络分别对文本数据进行了数字化编码与分析,实现了电力工程领域项目文件的自动审查｡并结合剪枝策略降低了神经网络的架构尺寸,进而提高了算力的利用率｡最后,通过采用实际电力工程文本数据对所提模型进行验证,结果表明该文模型在识别速度､风险提示等方面均具有一定优势,证明了模型的可行性｡

参考文献:

[1]王林峰,张文静,刘云,等.大数据环境下基于BIM与CNN的电力工程造价优化算法[J].沈阳工业大学学报,2024,46(1):7-12.

[2]彭汉钦.面向电网基建工程文件的重要信息提取技术研究[D].北京:华北电力大学,2023.

[3]徐宁,张文静,周波,等.基于FA-ELM深度挖掘模型的电力工程预算控制技术[J].沈阳工业大学学报,2023,45(6):637-642.

[4]鲍海泉,方瑞寅.面向电网工程的智能数据采集与分析验收方法研究[J].电子设计工程,2023,31(20):40-44.

[5]孙安黎,向春,喻建波.基于三维设计主成分分析的电网工程算量信息权重提取方法[J].计算机应用与软件,2023,40(8):104-109.

[6]殷伍平,冯伟,莫志华.文本挖掘下的电网企业管理定量测算模型[J].武汉理工大学学报(信息与管理工程版),2023,45(4):619-624.

[7]王勇,裘建开,严钰君,等.基于弱监督学习的电力信息动态漏洞挖掘系统[J].电子设计工程,2023,31(13):114-117,122.

[8]安俊秀,蒋思畅.面向自然语言处理的词向量模型研究综述[J].计算机技术与发展,2023,33(12):17-22.

[9]刘玉威,曹民,冯浩甲.基于自然语言处理的CNAS认可准则自动对标系统[J].电子科技,2023,36(5):28-33.

[10]刘萌,齐孟津,詹圳宇,等.基于深度学习的图像-文本匹配研究综述[J].计算机学报,2023,46(11):2370-2399.

[11]张玉,武海,林凡超,等.图像识别中的深度学习模型剪枝技术[J].南京理工大学学报,2023,47(5):699-707.