
摘要:电力工程信息的智能化检测与分析大多是基于数字类型的数据来展开的,而对于工程建设中文本型数据的检测模型而言,在检测准确度与检测速度方面均存在较大的改进空间。针对这一问题,文中构建了一套基于改进剪枝策略的专业大数据主要特征提取模型,以提高对专业文本数据的处理能力,实现对电力工程项目的全面评估。该模型通过深度神经网络对电力工程数据进行特征提取,并对数据特征进行结构分析,通过数据特征与风险库信息的相似度匹配,实现了对电力工程信息的风险判别。以某电力工程项目文本数据进行的评估测试结果表明,文中所提方法能够准确地提取出电力工程文本型数据的关键特征,并且可以分析挖掘出数据所蕴含的风险。
在电力工程项目的实施过程中会产生大量的电力工程建设数据[1-2],而对相关数据进行分析可以深入挖掘已有数据的深层价值,实现工程建设的提质增效[3-5]。随着大数据和自然语言处理等技术的进步,通过人工智能技术对工程数据进行分析已成为研究热点。采用人工智能技术,文献[6]实现了电力企业文本数据自动对比和风险评估,降低了人工处理的时间与成本,并且提高了审核的准确性;文献[7]实现了自动识别数据中可能存在的漏洞、模糊条款等,并提出相应的建议和预警。尽管人工智能技术在数据审核方面有着广泛的应用,但其仍有较大的改进空间。
针对此,提出了一种基于改进剪枝策略的专业大数据主要特征提取方法。该方法通过深度神经网络(DeepNeuralNetwork,DNN)对工程数据进行深层挖掘,采用特征选择和特征剪枝两种技术,对神经网络模型进行优化,实现了对电力工程数据的快速特征提取。此外,通过对工程与风险库数据进行相似性匹配,还实现了工程信息的风险隐患分析及评估。
1、基于神经网络的文本信息识别模型
当前对文本内容的审核分析研究模型主要分为基于规则与基于机器学习的两种。随着自然语言处理技术[8-9]的进步,审查内容的复杂度逐渐提高,从基本的格式审查已发展到对文本风险的审查。该文采用语义检索对文本数据进行关键词配对,实现了语义语法的统一匹配。
该模型采用文本浅层语义进行构建,具体流程如图1所示。
图1语义构建流程图
对文本信息进行语义匹配后,采用深度学习算法(DeepLearning,DL)分析其相关权重[10]。关键词的TF权重与其在文本中出现频率成正相关;IDF权重与该关键词在不同样本中的出现频率成负相关。
根据文本数据中所蕴含风险的影响后果对模型风险识别等级进行划分,主要分为低风险、中风险和高风险共3个等级。
通过对文本进行抽象,进而与风险条款库进行匹配,匹配规则如式(1)所示:
其中,NULL表示为空;|表示或,当存在一种关键词时即为成立。通过上述匹配规则对逻辑关系进行分析,当文本中所有相应逻辑位中关键词满足条件后,即可判定为风险匹配成功。相应的匹配关系如图2所示。
图2风险文本检查流程
在对文本进行检测时,首先,对文本数据进行关键词提取,从而构建不同关键词之间的实体关系;然后,通过将检测得到的关键词及其逻辑关系与风险库进行匹配检测,判别文本条款是否存在风险,并根据匹配相似度判断相应的风险等级;最后,当所有关键词及其逻辑关系匹配完成后结束检测。文本信息审查流程如图3所示。
图3文本信息审查流程图
2、基于剪枝策略的模型优化
剪枝模型[11-13]是一种在机器学习中常用的技术,主要用于减少决策树或其他模型的复杂性,并提高模型的泛化能力。剪枝模型的目标是通过删除或合并决策树中的部分节点和子树,以此来降低模型的复杂度,同时保持并提高模型的预测准确性。
剪枝模型通常包括生长和剪枝两个阶段。在生长阶段,决策树会根据训练数据逐步生长。通过选择最佳的分裂点和特征,决策树会不断地划分数据集,直至达到预定的停止条件。在该阶段,决策树可能会过度拟合训练数据,导致模型在未知数据上的表现并不理想。
在剪枝阶段,剪枝模型会通过对决策树进行修剪来降低过拟合风险。剪枝的依据通常是使用验证集或交叉验证等方法,来评估修剪后模型的性能表现。
在采用神经网络[14-16]对文本进行匹配时,首先将文本输入到训练好的剪枝前模型中,此时模型得到相应的数据特征A。根据A所对应的期望值,按照数学期望的升序顺序对数据特征A进行排列,同时按照相应剪枝比率对数据特性所对应的卷积核进行裁剪。通常情况下,卷积核的特征期望值与所蕴含的信息量成正相关,因此需要对蕴含信息量较少的卷积核进行裁剪。
设神经网络模型共有M层,Si、Si+1分别表示第i层卷积核的输入与输出的特征数,同时,该模型的第i层卷积核数量可表示为Li+1。卷积核输出的特征数据期望值用Eij表示,其计算方式如式(2)所示:
该文基于稀疏化尺度因子b进行卷积通道选择,采用这种方式对卷积核输出特征进行处理,其计算公式可用式(3)表示:
其中,zin表示输入数据;zˉ表示卷积核输入数据的平均值;σ2表示相应数据的方差;ε为计算系数。
对于特征向量的缩放因子,设其缩放因子为γ,则其平均缩放因子为:
通过对缩放因子进行正则化,其分布会向0的方向稀疏,以增强对于卷积核不同重要程度的区分度。在网络训练过程中,重要卷积核的缩放因子会向平均值正方向偏移,而不重要的卷积核缩放因子会向0偏移。而超参数t能够对网络的稀疏程度进行控制。
图4对剪枝策略的流程进行了说明。根据卷积核输出的特征数据计算相应卷积核期望,通过对期望进行排序,剪裁掉期望较小的卷积核,实现了对神经网络结构的优化。其中,所剪裁的卷积核数量由该卷积核所在的神经网络层的总卷积核数量及剪枝率来确定。
图4剪枝策略的流程
3、算例验证
为验证文中所提基于改进剪枝策略的专业大数据主要特征提取模型在合同风险审核方面的准确性与有效性,文中采用50组合同样本进行分析,其中每组样本包含10个合同。通过与传统文本分析方法进行对比,说明了所提模型的有效性。算例验证的环境配置如表1所示。
表1算例验证环境配置
在模型训练过程中,首先,将样本数据中的文本语言进行碎片化处理,以便输入模型。对于每一条输入数据,均通过神经网络对其进行特征提取,并将文本的特征与风险库数据进行相似性匹配,判断可能存在的风险。接着,采用剪枝策略对卷积核进行裁剪,以达到模型参数量与训练效果的最优解。最后,利用测试样本对训练后模型进行验证。数据风险识别结果如表2所示。
表2模型识别结果对比
通过对表2进行分析可知,该文模型对于可能直接引起经济损失的风险条款均判别为高风险,相比于其他方法识别灵敏度更高,对于电力工程项目的事前风险提示更为准确。与其他方法相比,所提方法不仅考虑了对方履约能力的因素,同时也考虑到己方履约能力出现波动时,相关约定所隐含的风险。
基于神经网络的关键词-逻辑提取模型训练时的损失变化如图5所示。刚开始模型损失较高,说明此时该神经网络未能有效提取出与风险相关的特征参数;随着训练迭代次数的增加,模型损失逐渐降低,这表明模型对文本信息的提取能力正在逐渐提高。当损失趋于一个稳定水平时,说明模型对输入信息的特征提取达到收敛。
图5模型训练过程损失变化图
同时,该文在新一组模型训练中加入剪枝策略并设置不同的剪枝率,具体如表3和表4所示。训练结束发现,相比于传统神经网络模型,改进模型在收敛速度及最终损失稳定水平方面均有所提高。此外,对模型参数量进行统计可以看出,采用剪枝策略模型的参数相比于传统神经网络有所降低,且参数量与剪枝率呈现出负相关的关系。
表3不同模型参数量对比
表4该文模型不同剪枝率参数量对比
4、结束语
该文通过构建基于改进剪枝策略的专业大数据主要特征提取模型,采用深度神经网络和语义神经网络分别对文本数据进行了数字化编码与分析,实现了电力工程领域项目文件的自动审查。并结合剪枝策略降低了神经网络的架构尺寸,进而提高了算力的利用率。最后,通过采用实际电力工程文本数据对所提模型进行验证,结果表明该文模型在识别速度、风险提示等方面均具有一定优势,证明了模型的可行性。
参考文献:
[1]王林峰,张文静,刘云,等.大数据环境下基于BIM与CNN的电力工程造价优化算法[J].沈阳工业大学学报,2024,46(1):7-12.
[2]彭汉钦.面向电网基建工程文件的重要信息提取技术研究[D].北京:华北电力大学,2023.
[3]徐宁,张文静,周波,等.基于FA-ELM深度挖掘模型的电力工程预算控制技术[J].沈阳工业大学学报,2023,45(6):637-642.
[4]鲍海泉,方瑞寅.面向电网工程的智能数据采集与分析验收方法研究[J].电子设计工程,2023,31(20):40-44.
[5]孙安黎,向春,喻建波.基于三维设计主成分分析的电网工程算量信息权重提取方法[J].计算机应用与软件,2023,40(8):104-109.
[6]殷伍平,冯伟,莫志华.文本挖掘下的电网企业管理定量测算模型[J].武汉理工大学学报(信息与管理工程版),2023,45(4):619-624.
[7]王勇,裘建开,严钰君,等.基于弱监督学习的电力信息动态漏洞挖掘系统[J].电子设计工程,2023,31(13):114-117,122.
[8]安俊秀,蒋思畅.面向自然语言处理的词向量模型研究综述[J].计算机技术与发展,2023,33(12):17-22.
[9]刘玉威,曹民,冯浩甲.基于自然语言处理的CNAS认可准则自动对标系统[J].电子科技,2023,36(5):28-33.
[10]刘萌,齐孟津,詹圳宇,等.基于深度学习的图像-文本匹配研究综述[J].计算机学报,2023,46(11):2370-2399.
[11]张玉,武海,林凡超,等.图像识别中的深度学习模型剪枝技术[J].南京理工大学学报,2023,47(5):699-707.
[12]翁佳昊,秦永法,唐晓峰,等.基于多目标优化的车道线检测模型剪枝算法[J].传感器与微系统,2023,42(7):125-127,131.
[13]邵凯,杜自群,王光宇.基于模型剪枝动态调整压缩率的CSI反馈方法[J].系统工程与电子技术,2023,45(8):2615-2622.
[14]邓成汝,凌捷.融合预训练模型与神经网络的实体关系抽取[J].计算机工程与设计,2023,44(7):20232029.
[15]沈鑫,周宇.基于神经网络和信息检索的源代码注释生成[J].计算机系统应用,2023,32(7):1-10.
[16]曹海欧,崔玉,易新,等.基于神经网络的定值名称智能比对方法[J].现代电力,2023,40(4):587-595.
基金资助:国网中兴有限公司电网数字化项目(733400230004);
文章来源:苗立宁,张韫,王利军,等.基于改进剪枝策略的专业大数据主特征提取方法研究[J].电子设计工程,2025,33(05):22-25+30.
分享:
电子价签(ElectronicShelfLabel,ESL)于20世纪80年代在欧洲萌芽。1993年,首个电子价签问世,其屏幕采用断码屏,即类似计算器所使用的液晶显示屏。断码屏仅能显示有限字符,主要用于呈现价格信息,数据传输方式依靠红外通信,上传价格数据耗时较长。
2025-03-30基于全球经济一体化的时代背景,科技的发展不仅让市场竞争的激烈程度加剧,也让中国经济步入新常态。而国有控股企业因受企业性质的影响和约束,在发展过程中需要不断结合自身特点及需求来创新采购管理模式。正因如此,在随后的数年里,国有控股企业的采购工作先后经历了多个阶段,如分散采购、集中招标采购、产生物资集中采购以及集中采购等。
2025-03-28在全球能源体系加速重构与能源互联网深度演进的背景下,电力企业正经历着“三重变革”的叠加冲击:能源生产范式从集中式向分布式转变,资产运营模式从重资产向数字资产延伸,价值创造逻辑从规模效应向生态协同突破。这种变革使企业财务管理系统面临着电价波动传导、碳会计计量盲区与绿电资产估值困境等多维风险敞口。
2025-03-28电流互感器在正式投运以前,应做好相关现场试验。试验项目分为:直流电阻测试、极性试验、变比试验、绝缘电阻测试以及伏安特性试验。电流互感器依据的是电磁感应原理,它由闭合的铁芯和绕组组成。电流互感器的一次绕组匝数很少,串接在要测量电流的线路中,二次绕组匝数比较多,串接在测量仪表和保护回路中[1]。
2025-03-28在电机驱动系统的设计和优化过程中,系统整体效率的提升是一个至关重要的目标。这一效率的高低主要受到两个关键部分的损耗影响:首先是逆变器损耗,其次是电机损耗。在逆变器损耗方面,导通损耗是一个重要的组成部分,它主要取决于功率器件在导通状态下的电阻值。
2025-03-28目前,针对上述放电问题的原因分析研究报道较多,主要涉及对半导电缓冲阻水带的质量、铝护套与缓冲层的间隙、皱纹铝护套电缆自身结构特性等原因的分析研究。虽然现在对缓冲层放电问题的解决方案尚无统一意见,但解决半导电缓冲阻水带质量问题始终处于首要位置。
2025-03-28干式变压器由于其易维护、故障率低等优点[1],近几年被广泛应用在储能、风电等领域。变压器作为电力系统中的核心设备之一,成本高昂,对系统稳定性有直接影响。变压器故障调查显示,运行中,变压器易发生绕组故障,绕组引起的故障占比超15%,其中短路是最为严重的故障之一。
2025-03-28铜芯聚氯乙烯(PVC)绝缘软电线(即BVR型电线)作为一种配电柜专用软电线,被广泛应用于各类建筑和公共场所中。但在安装使用过程中,时常有用户反映BVR型电线出现铜导体发黑现象。该现象的出现不仅造成了用户使用的困扰,也影响了企业的声誉,对此各线缆企业均极为重视。
2025-03-27随着我国基建事业不断发展,对电力设施使用的安全可靠性愈加关注,要求与电力设施配套的电缆不仅应具有优异的电气性能,同时还应具有较高的阻燃性。目前,特别是商场、地铁、剧院和医院等人员密集场所的电力设施用电缆,B1级阻燃性能已成为常规要求。
2025-03-27相关试验方法标准对护套拉伸性能测试时用于制作哑铃试件的试条厚度Hts范围规定较宽,即要求0.8Mm≤Hts≤2.0Mm,如果Hts<0.8mm,则允许Hts,Min=0.6mm;对于Pe护套,如果护套较厚且两面均较光滑,则哑铃试件厚度不需要削到2.0mm。较高的Hts虽便于相关测试人员采用磨平或削平方式制取护套试条并制作哑铃试件,但也可能对热塑性护套老化前后机械性能测试结果产生影响。
2025-03-27人气:8077
人气:4403
人气:3191
人气:2669
人气:2461
我要评论
期刊名称:现代电力
期刊人气:2669
主管单位:中华人民共和国教育部
主办单位:华北电力大学
出版地方:北京
专业分类:电力
国际刊号:1007-2322
国内刊号:11-3818/TM
邮发代号:82-640
创刊时间:1984年
发行周期:双月刊
期刊开本:大16开
见刊时间:一年半以上
影响因子:0.814
影响因子:1.445
影响因子:0.657
影响因子:0.000
影响因子:0.688
400-069-1609
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!