
摘要:风电机组异常数据点筛选受到大规模高维噪声数据干扰,导致数据点筛选结果不全面。为精准筛选风电机组异常数据点,提出了基于密度聚类算法的风电机组异常数据点筛选方法。根据风电机组异常数据特征密度聚类,将多维向量空间中的数据形式化为特征值邻域,避免高维噪声影响异常数据点筛选过程。计算邻域半径和邻域密度,以反映数据分布紧密程度,确定密度低的点为噪声点。采用云分段最优熵算法,分析风速、功率数据样本关系,并计算信息熵。将样本熵计算结果输入到云发生器中,获取熵所在云序列坐标点,实现异常数据点筛选。由实验结果可知,所提出方法能够精准筛选出1号和2号风电机组异常数据点,为风电机组的安全运行提供精准数据。
风电机组的随机性和间歇性会影响电网的稳定性和可靠性。对风电机组的实时风速、功率参数进行精确测量,可以为风电场经济稳定、合理地实施调控决策奠定基础。然而,风电机组停机、减负荷、通信噪声、装置失效等原因,使风电机组出现了大量的异常运行数据。因此,需要对风电机组异常数据点进行筛选。
文献[1]提出了基于自适应DBSCAN算法的异常数据识别方法,分析风电机组异常数据,采用DBSCAN识别异常数据,利用不带标志的边缘因子进行最优选择,以达到识别样本群中的非典型数据。文献[2]提出了考虑运行状态相似性的检测方法,根据所测风电机组的状态参数短期依赖关系,建立了一种基于SVM的可靠估算方法,通过组合概率估计模型检测异常数据点。上述两种方法虽然能够有效检测异常数据点,但在检测过程中,其筛选结果不具有全面性。为此,提出了基于密度聚类算法的风电机组异常数据点筛选方法。结合密度聚类算法,在云分段最优熵算法支持下实现异常数据点筛选。
1、基于密度聚类的自适应筛选框架搭建
利用密度聚类法对异常数据进行分类,划分出正常和异常数据轮廓。针对多维矢量空间中的聚类问题[3-4],利用属性的密度对每个属性进行聚类,可以将本征值的邻近区域形式表示为:
式中,α、β表示两个特征值对象;An表示n个特征值集合;λ表示簇中核心对象[5]。基于此,搭建的基于密度聚类的自适应筛选框架,如图1所示。
图1基于密度聚类的自适应筛选框架
在该框架中,已失效的轮廓连线记录被移除,被移除的判定条件为:所生成的轮廓连线记录会减少筛选模式的筛选效能,存储器中轮廓连线记录会超过储存极限[6-7]。在这种情况下,最先参与聚类的连接记录将会被移除。一旦到期的连接记录被移除,筛选模式会自动地进行修正。
2、基于密度聚类算法的异常数据点筛选
通过搭建基于密度聚类的自适应筛选框架,可将密度信息聚类特征值形式化为邻域,计算邻域半径和邻域密度,结合云分段最优熵算法,获取熵所在云序列坐标点,由此展开异常数据点筛选。
2.1异常数据点密度聚类处理
密度聚类是一种无监管的机器学习方法,它可以在没有预先设置簇数目的情况下,以邻近区域的大小和浓度为指标,确定其分布的密集度,从而发现具有不规则外形的簇[8-10]。邻域半径和邻域密度计算公式为:
式中,dai、dbi分别表示ai、bi与同一类别其他点之间的距离。这种方法能够将稠密的散点标记为一种类型,将分散的散点标记为另一种类型,以此区分正常点和异常点[11]。采用密度聚类方法时,需要对邻近区域和邻近区域的密度临界点进行选择,而相邻区域的浓度临界点,必须达到比簇群数据的尺度更高的程度[12-13]。该方法从中心对象中寻找具有高密度的对象,再将它们结合成一个新的簇群,直至无法在对象集合中加入其他群集为止,异常数据点密度聚类处理过程结束。
2.2异常数据点筛选步骤设计
针对异常数据点的筛选,提出了一种基于云分段熵值的最大值和最小值辨识方法,也就是风电机组的偏高、低数据集合[14-15]。假设风速、功率数据样本集合为S,其可表示为:
式中,Q1、Q2、Q3分别表示偏低数据集、偏高数据集、正常数据集,这三个数据集之间的关系满足:
基于该关系,对样本集合S进行异常数据点筛选,其步骤如下:
步骤一:处理包含风速、功率数据序列,云分段处理的时间间隔为0.5 m/s,利用反向云生成器对数据集分布特征进行了展示。在由m个样本组成的样本集合s(i)=s(1),s(2),⋯,s(m)中,采样熵的计算方法是以序列值作为一组维数的矢量序列,其中:
从第i点开始的m维连续数据,统计其与j点开始的m维连续数据之间距离,计算公式为:
设定阈值l为标准距离,当式(7)计算结果小于等于l时,可将该情况下的结果记作Fm,由此得到的样本熵计算公式为:
步骤二:在采样熵计算的基础上,将采样熵中的最大能量按顺序输入到云发生器,得到了模型熵[16]。
云生成器是一种不确定的转换方式,它表示了一种由语言数值表示的量化转换模式,能够体现出概念模糊、随机性质的描述,将两者结合起来,形成一个质与量的映射,其主要有三个数字特征,分别是期望值、熵值、超熵,如图2所示。
图2云发生器数据特征
所有的云可视化方式都可以利用云的数字特征用正向云产生器来完成,而反向云产生则需要将云从数据转化为语言形式,并挖掘出准确的云熵数据特征。
步骤三:比较和分析熵在一系列云系中的坐标点上的最大阈值ϕmax和最小阈值ϕmin,找到与最大阈值相关的坐标点(xi,xj),在这些坐标中,xj
3、实验分析
为验证基于密度聚类算法的风电机组异常数据点筛选方法的正确性,分析国内风电机组实际运行数据。设定额定输出功率为1 500 kW,叶片半径为90 m。
3.1数据样本
选择具有代表性异常数据的1号和2号机组的实际操作数据,以验证该方法在数据收集方面的有效性。1号和2号机组一年内的原始数据特征如图3所示。
图3 1号和2号机组连续一年原始数据特征
由图3可知,1号机组异常数据和正常数据混合程度严重,2号机组异常数据和正常数据混合程度较轻,且在特定的区域和数目上存在差异。
3.2实验结果与分析
分别使用文献[1]方法、文献[2]方法和所提出方法,对比分析不同方法的数据点筛选情况,如图4和图5所示。
由图4可知,文献[1]方法能够识别异常边界,但无法筛选出全部异常数据点,一部分异常数据点依然处于分散状态;文献[2]方法无法有效识别异常边界,并筛选出全部异常数据点,大部分异常数据点依然处于分散状态;而所提出方法能够有效识别异常边界,精准筛选出全部异常数据点。
图4不同方法1号机组异常数据点筛选情况
由图5可知,采用这三种方法均能够确定筛选边界,其中文献[1]方法、文献[2]方法无法精准筛选全部异常数据点,使得小部分数据点处于离散状态混合在风电机组数据中;而所提出方法能够精准筛选全部异常数据点。
4、结束语
为精准筛选全部异常数据点,提出了基于密度聚类算法的风电机组异常数据点筛选方法。在风电机组异常数据特征密度聚类的前提下,分析多维向量空间中特征值邻域。采用云分段最优熵算法计算信息熵,获取熵所在云序列坐标点,由此展开详细筛选异常数据点步骤。实验结果表明,所提出方法可以对异常数据点进行精准筛选。
图5不同方法2号机组异常数据点筛选情况
参考文献:
[1]雷萌,郭鹏,刘博嵩.基于自适应DBSCAN算法的风电机组异常数据识别研究[J].动力工程学报,2021,41(10):859-865.
[2]曾祥军,冯琛,杨明,等.考虑运行状态相似性的风电机组数据异常检测方法[J].电力系统自动化,2022,46(11):170-180.
[3]马然,栗文义,齐咏生.风电机组健康状态预测中异常数据在线清洗[J].电工技术学报,2021,36(10):2127-2139.
[4]马良玉,程善珍.基于支持向量数据描述和XGBoost的风电机组异常工况预警研究[J].电工技术学报,2022,37(13):3241-3249.
[5]梅勇,李霄,胡在春,等.基于风电机组控制原理的风功率数据识别与清洗方法[J].动力工程学报,2021,41(4):316-322,329.
[6]张超,张少飞.基于SCADA温度数据的风电机组发电机驱动端轴承异常识别方法[J].轴承,2022(6):67-73.
[7]曹立新,刘伟民,郭虎全.风电场功率曲线异常数据的清洗与建模[J].兰州理工大学学报,2022,48(4):64-70.
[8]曹曼曼,汪勉.大规模无线传感器网络异构数据交换方法仿真[J].计算机仿真,2019,36(5):345-348.
[9]向玲,王朋鹤,李京蓄.基于CNN-LSTM的风电机组异常状态检测[J].振动与冲击,2021,40(22):11-17.
基金资助:国网甘肃省电力公司科技项目(53262825001B);
文章来源:王克挺.基于密度聚类算法的风电机组异常数据点筛选[J].电子设计工程,2024,32(18):127-131.
分享:
多电飞机是未来飞行器发展的重要方向,而多电航空发动机(More Electric Engine,MEE)的性能直接决定了飞机的整体性能。多电发动机的核心部件主要有:磁悬浮轴承系统、内置式整体起动/发电机、电驱动燃油泵、分布式控制系统,其中前两者一般都直接安装在高压转子上,对转子运行有直接影响。
2024-12-04在以航空发动机为代表的高速旋转机械中,齿轮是核心传动元件,用于保证不同转速的部件互相匹配并高效传递功率,其可靠性至关重要。一旦齿轮发生故障,将直接影响航空发动机的使用安全,轻则会使系统振动增大、传动失效,严重时甚至会导致灾难性事故。某型起动机发生两起减速器输入主动齿轮断齿故障,一起起动机自由涡轮盘甩出,险些酿成大祸。
2024-12-04工程教育专业认证可以有效保障工程教育的质量。教育部发布的《关于一流本科课程建设的实施意见》提出,课程目标要坚持知识、能力、素质有机融合,培养学生解决复杂问题的综合能力和高级思维,这对高校理工科学生的工程实践能力与创新意识提出了明确的目标。
2024-11-11纯电轻卡是一种利用电池作为动力源,通过电机驱动轮胎运行的载重型车辆,具有节能、环保、低噪音等优点。随着新能源汽车技术的发展和政策的支持,纯电轻卡在我国市场上得到了快速的推广和应用。然而,纯电轻卡作为一种重载运输工具,在复杂的道路条件下运行,对驱动系统提出了较高的要求。
2024-10-23随着我国国民经济的发展及电网峰谷差的逐渐加大,大型火电机组已普遍参与调峰运行。机组在担负调峰任务时,通常需要频繁的启停,热态启动次数较多,转子和汽缸由此受到冷热冲击进而严重影响汽轮机的使用寿命。因此,对于汽轮机的热态启动,关键要解决汽轮机主蒸汽温度和汽轮机转子、汽缸温度之间的匹配问题。
2024-10-17随着我国电力需求的增长与能源绿色低碳转型,以及电力系统结构逐步改变,电力系统面临巨大挑战。短期负荷预测是电网日常调度的重要依据,其预测精确度的需求也变得更高。目前,负荷预测的方法主要分为机器学习和深度学习。在进行负荷预测时,应有效地考虑负荷与过去的负荷值之间复杂的相关性。
2024-10-08风电机组的随机性和间歇性会影响电网的稳定性和可靠性。对风电机组的实时风速、功率参数进行精确测量,可以为风电场经济稳定、合理地实施调控决策奠定基础。然而,风电机组停机、减负荷、通信噪声、装置失效等原因,使风电机组出现了大量的异常运行数据。因此,需要对风电机组异常数据点进行筛选。
2024-09-20在“双碳”的背景下,以光伏、风电为代表的分布式电源得到广泛应用,并通过电力电子设备接入电力系统。分布式电源具有响应快、安全灵活等优点,但由于缺乏惯性,随着电力电子设备渗透率的提高,必然会降低电力系统的惯性阻尼。此外,由于其输出的不确定性和间歇性,系统的稳定性将受到威胁。
2024-09-20近几年新能源乘用车市场占有率不断提升,电动化成为了汽车技术发展的主流趋势,尤其以“蔚小理”等为代表的造车新势力,将纯电动车技术不断推向高端化、智能化、网联化的新发展态势。为了满足用户对纯电动汽车加速性能好、续航里程高、充电速率快、成本低等需求,电驱动技术也朝着高功率密度、高效率、高转速等方向发展。
2024-09-20水轮发电机组是水电站实现效益的核心设备,厂房作为保障机组运行的重要建筑,受振动影响可能发生共振,甚至导致局部构件损坏,这直接关系到电站的安全运行。因此,对电站厂房结构进行振动分析十分必要。马震岳等对三峡水电站厂房结构进行了动力分析,发现厂房振动频率较低且密集,机组转频和水轮机尾水管涡带频率接近厂房结构的基频和第二阶频率。
2024-09-19我要评论
期刊名称:电子设计工程
期刊人气:2485
主管单位:九三学社陕西省委员会
主办单位:西安市三才科技实业有限公司
出版地方:陕西
专业分类:电子
国际刊号:1674-6236
国内刊号:61-1477/TN
邮发代号:52-142
创刊时间:1994年
发行周期:半月刊
期刊开本:大16开
见刊时间:10-12个月
影响因子:0.333
影响因子:0.315
影响因子:0.438
影响因子:0.000
影响因子:0.527
400-069-1609
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!