首页 > 论文范文 > 工程工业论文 > 工程综合论文 > 环境科学论文 > 基于混合神经网络模型的空气污染物预测研究

基于混合神经网络模型的空气污染物预测研究

2024-11-24 83 上传者：管理员

摘要：为了更好地预测未来一段时间内空气中污染物的含量，提高预测精度，减小误差，提出了一种基于一维卷积神经网络(CNN)，和双向长短时记忆网络(BiLSTM)结合了注意力机制(AT)和粒子群优化(PSO)的CNN-BiLSTMATPSO空气污染物预测模型。一维卷积用于学习局部特征趋势，BiLSTM用于捕获时间序列之间的依赖关系，据此设计CNN-BiLSTM时间预测模型，并结合注意力机制和粒子群两种深度学习算法，进一步对模型进行改进。通过与LSTM-Attention模型和BiLSTM-Attention模型进行对比，通过比较评估指标平均绝对误差(MAE)和均方根误差(RMSE)，得出结论，CNN-BiLSTM-ATPSO模型在预测精度方面具有显著优势。

关键词：
卷积神经网络
双向长短时记忆网络
注意力机制
空气污染物预测
粒子群
加入收藏

1、引言

近年来，随着社会经济的飞速发展和工业化进程迅速推进，汽车尾气、工业废气、化石燃料等污染源加剧排放[1]，导致我国空气质量的污染问题日益严重，对人民的身体健康和社会的生产力带来了极大的影响，因此提前预知下一阶段的空气污染物含量可以方便人们更加合理地安排生产和生活[2]。根据《环境空气质量标准》（GB3095—2012），空气污染物含量是影响空气质量的关键因素，用于衡量空气质量的常规空气污染物共有六种，分别为二氧化硫（SO2）、二氧化氮（NO2）、粒径小于10μm的颗粒物（PM10）、粒径小于2.5μm的颗粒物（PM2.5）、臭氧（O3））、一氧化碳（CO）。本文主要预测NO2、PM2.5、CO三种空气污染物。*

目前，国内外对空气污染物预测的研究已持续了多年，提出了诸多方法。文献[3]使用BP神经网络对北京空气污染指数进行了预测，该模型可以很好地描述空气质量指数与其影响因子之间的非线性关系，证明BP神经网络在这一领域可行且有效；文献[4]提出一种转移双向长短期记忆网络（Bi-LSTM）模型，利用Bi-LSTM模型从PM2.5的长期依赖中学习，使用中国广东PM2.5数据集进行实验，证明了BiLSTM模型在预测上的可行性。文献[5]提出了基于CNN-LSTM的空气质量预测模型，表明CNN-LSTM模型在空气污染物的预测上有着较好的预测效果。文献[6]使用混合模糊逻辑和深度神经网络相结合的方法预测PM2.5浓度的变化，并与LSTM模型进行对比，表明CNN-LSTM模型在时间序列上的预测性能要高于LSTM模型。

然而，LSTM、RNN等方法在输入序列过长时容易丢失序列信息[7]，从而在一定程度上影响了空气污染物含量预测的准确度，且在使用CNN和Bi-LSTM对多维特征进行预测过程中，参数的设置也对模型的预测性能有着较大影响，如CNN卷积核、CNN滤波器个数、LSTM隐含层、LSTM迭代次数等，需对以上超参数进行优化。针对以上问题，本文首先分析空气污染物含量变化的特点，提出了基于CNN-BiLSTM和深度学习算法的空气污染物含量预测模型CNN-BiLSTM-ATPSO。

2、算法原理

2.1 卷积神经网络

CNN是一种带有卷积结构的前馈神经网络，具有强大的空间网格数据处理能力，主要作用是对数据进行特征提取。CNN由卷积层、池化层、全连接层构成。卷积层是特征提取的关键，其作用是对输入多维特征网格数据进行特征提取，通过滑动窗口数据与卷积核计算内积，提取不同位置数据的权重，得到一个新的矩阵，即特征图。池化层的主要工作是降维采样，使用RELU激活函数忽略一些不重要的特征，有效控制过拟合。全连接层的作用是把经过池化之后的神经元展开为一维向量形式，进而更加方便地对数据进行处理。CNN卷积过程如图1所示。

图1 CNN卷积过程

2.2 长短时记忆网络

LSTM由3个独特的门结构（遗忘门、输入门和输出门）和一个用于存储记忆的状态模块组成[7]，单元结构如图2所示。其中Ct为LSTM单元t时刻状态信息，ht为隐含层t时刻输出，ft为t时刻遗忘门，功能是从上一时刻细胞状态Ct-1中筛选重要特征，公式表示为：

it为t时刻输入门，功能是选择下一个状态要存储的数据，公式表示为：

ot为t时刻输出门，功能是过滤细胞状态，确定输出部分，公式表示为：

t时刻细胞状态由Ct-1更新为Ct，公式表示为：

其中Wf、Wt,Wc、Wo、Wy为各个模块对应的权重矩阵，bf、bi、bC、bo、by为偏置项，σ为sigmoid激活函数。

BiLSTM是基于双向循环神经网络的改进，由前向LSTM和后向LSTM组合构成，结构如图3所示。通过LSTM的隐藏层分别从正反两个方向处理序列，处理完成后两个LSTM输出结果拼接后得到最终的输出结果，计算过程可表示为：

其中，LSTM+,LSTM-为前文中的神经网络运算，Wh、W'h为前向和反向的权重值，by为偏置项。

相较于单向传输LSTM,BiLSTM模型在捕获时间数据的特征上有着更好的效果。

图2 LSTM单元结构图

2.3 注意力机制

专家学者根据对人类视觉的研究，提出了注意力机制[8]，用于在计算能力有限的情况下，将计算资源分配给更重要的任务，同时解决信息超载问题。在神经网络模型处理大量输入信息的过程中，利用注意力机制，可以做到只选择一些关键的输入信息进行处理，来提高神经网络的效率。

图3 BiLSTM结构图

除此之外，注意模型可以忽略输入序列单元在空间和时间上的距离，将它们联系起来，同时使序列数据处理更具并行性[9]。通过注意力机制处理被现有结构忽略的短序列特征的重要度差异，提取显著细粒度特征，同时便于LSTM更有效地捕捉时间依赖性。

2.4 粒子群算法

粒子群算法(PSO)是一种启发式的群体进化优化算法[10]。类似于鸟类寻找食物的方式，每个粒子在自己的搜索空间中寻找最优解，并与群体共享个体最优解，最终将最优个体极值作为当前全局最优解[11]。

首先，给定一组随机粒子，初始化粒子群，使每一个粒子处在随机的位置上且速度随机；然后，开始迭代这些随机粒子找到最优解。在每次迭代中，粒子同时更新自己的位置和速度值。若某个粒子当前的适应值比之前记录的该粒子最优解pbest更好，则更新该粒子的最优解；若某个粒子当前的适应值比之前记录的全局最优解gbest更好，则更新全局最优解。当粒子找到最优值时，粒子通过以下公式更新速度和位置：

图4 PSO算法流程图

其中，i表示粒子数；vik为第i个粒子迭代到第k代的速度；xik为第i个粒子迭代到第k代时的位置；rand1、rand2为随机数，取值范围为(0,1);c1、c2为学习因子；ω为惯性因子。PSO算法流程图如图4。

3、系统模型设计

将BiLSTM模型与注意力机制相结合，引入一维卷积神经网络（CNN），并利用粒子群算法对模型参数进行寻优，提出CNN-BiLSTM-ATPSO模型，具有注意机制的多元时间序列回归模型，用于预测空气中NO2,PM2.5,CO含量短期内的变化趋势。模型结构如图5所示。CNN在提取特征方面具有优越性，并且可以对信号进行卷积，提供具有洞察力的高层次特征[12]。BiLSTM有助于信号实体识别，并且可以通过考虑过去的单元状态和输入数据来学习门权值以解决定义的目标。利用注意力可以配置模型，通过关注特定的处理信号来进行识别。PSO进行参数选优。

组合模型的主要包括：

1DCNN：通过Embedding层将信息传输到卷积层与最大池化层依据局部连接和权值共享的方式利用一维卷积核滤波器进行卷积、池化和特征提取[13]，最后经由Flatten层输出所得的一维时间序列数据，作为BiLSTM的输出。

BiLSTM：获取时刻t具有介于过去和未来信息的特征数据，即前向LSTM层具有输入序列时刻t和前一时刻的信息，后向LSTM层具有输入序列时刻t和后一时刻的信息，并将信息传输到AT层，进一步提高预测能力。为了防止过拟合，在convolution层和BiLSTM层上都进一步加入dropout层。

AT注意力机制：从BiLSTM层获得一个特征映射，并作为输入提供给下一个注意力层，并从这一层得到特征向量。

PSO参数优化：利用PSO算法对组合模型关键参数进行寻优，采用不同参数对测试集进行迭代预测，并通过评价指标平均绝对误差（MAE)和均方根差（RMSE）作为粒子最优解的评估标准，找到最优参数，从而得到最优的预测结果。

4、实验结果与分析

4.1 数据预处理

实验数据包括空气污染物含量数据和气象数据，分别来自中国环境监测总站的全国城市空气质量实时发布平台和全球历史气候学网络（GHCN）、美国国家气候数据中心（NCDC），每隔2h采集一次数据。

模型训练前需要对数据进行预处理，首先，由于数据存在缺失情况，采用移动平均法对缺失值进行补全，公式表示为：

其中，X't+1为缺失值；N为补全过程中选取的样本数量；Xi为每次计算中选择的样本，选取缺失值前连续的数据计算的平均值，补全缺失数据。

其次，为防止数据中存在奇异样本增加网络的训练时间，导致模型网络无法收敛，需要对数据进行归一化处理，采用Min-Max方法，使CNN-BiLSTM-ATPSO模型的输入值处于[0,1]区间内，公式表示为：

其中，x为原始数据；x'为归一化处理后的数据；xmax为原始数据中的最大值；xmin为原始数据中的最小值。

接着对数据集进行训练集和测试集的划分，训练集和测试集的比例为8:2，前80%用于训练，后20%用于测试。

最后，在测试结束后对数据进行反归一化处理，评估模型的预测误差。

4.2 结果与分析

选取平均绝对误差(MAE)和均方根误差(RMSE)作为评价模型预测效果的指标[14],MAE和RMSE的计算公式如下：

其中，yi为实测值；y'i为模型输出的预测值；n为样本数量。

图5 CNN-BiLSTM-ATPSO模型结构图

图6 NO2,PM2.5,CO预测值与真实值的对比

通过PSO粒子群算法对CNN-BiLSTM-ATPSO模型参数进行寻优，当模型中参数Pi={nf,nk,nL,nb}分别为46、2、37、64时，模型预测准确性最高，误差最小，选取这组参数作为模型的训练参数，预测未来300个小时内NO2,PM2.5,CO三种空气污染物含量的变化趋势，结果如图6所示，为预测值和真实值的对比。

为了进一步验证CNN-BiLSTM-ATPSO模型的预测性能，选取基于BiLSTM-Attention的空气污染物浓度预测模型以及基于LSTM-Attention的空气污染物预测模型。从而得出卷积网络，双向长短时记忆网络和粒子群算法在空气污染物含量预测上的优势。对比结果如表1所示。

表1 MAE和RSME结果对比

由表1所知，CNN-BiLSTM-ATPSO模型的MAE和RMSE都相对较低，证明一维卷积局部特征学习能力和子采样能力及粒子群参数寻优都在一定程度上提升了模型的预测性能，使CNN-BiLSTM-ATPSO模型具有优于其他模型的预测效果，BiLSTM可以按时间顺序和逆时间顺序处理时间序列数据，可以捕获收集到LSTM所忽略的信息，从而提高模型的学习能力及预测效果。而CNN-BiLSTM-ATPSO模型可以利用卷积神经网络的局部特征学习能力和子采样能力来实现更优于其他模型的预测效果。

5、结论

本文提出了一种由一维CNN、BiLSTM、Attention和PSO组合而成的空气污染物预测模型。为了验证本模型在空气污染物含量预测上的效果，本文选取LSTM-Attention模型和BiLSTM-Attention模型进行实验对比，结果表明，本文提出的模型在三种污染物含量的预测结果上均具有更好的表现，更接近真实值。本文通过BiLSTM捕捉时间序列特征，通过一维卷积筛选局部特征，据此设计CNN-BiL⁃STM预测模型，并加入注意力机制和PSO粒子群算法对模型进一步优化，为时间序列预测模型提供一个新思路。在实际应用中，更为准确地提前预知下一时间段的空气污染物含量，有助于社会更合理地安排生产活动，人们更好地安排生产生活。

参考文献:

[1]常峰.基于深度学习的空气质量预测算法研究[D].重庆:重庆大学,2021.

[2]林涛,吉萌萌,付崇阁,等.基于改进时间卷积网络的空气质量预测研究[J].计算机仿真,2022,39(10):451-456+501.

[3]白鹤鸣,沈润平,师华定,等.基于BP神经网络的空气污染指数预测模型研究[J].环境科学与技术,2013,36(03):186-189.

[5]刘媛媛,曹宇飞.集成CNN-LSTM预测模型的空气质量可视化平台[J].信息技术与信息化,2022(04):19-22.

[7]魏健,赵红涛,刘敦楠,等.基于注意力机制的CNN-LSTM短期电力负荷预测方法[J].华北电力大学学报(自然科学版),2021,48(01):42-47.

[10]赵乃刚,邓景顺.粒子群优化算法综述[J].科技创新导报,2015,12(6):216-219.

[13]唐一强,杨霄鹏,朱圣铭.基于注意力机制的混合CNNBiLSTM低轨卫星信道预测算法[J].系统工程与电子技术,2022,44(12):3863-3870.

[14]王军,高梓勋,朱永明.基于CNN-LSTM模型的黄河水质预测研究[J].人民黄河,2021,43(05):96-99+109.

文章来源:朱立忠,谢林汐.基于混合神经网络模型的空气污染物预测研究[J].通信与信息技术,2024,(06):24-28.