摘要:传统的土壤重金属反演模型通常在预处理中使用整数阶微分方法(如1阶或2阶),其忽略了与目标变量相关的分数阶光谱反射率。分数阶微分(FOD)能通过灵活选定微分阶次,有效增强光谱信号。以云南省普洱市墨江哈尼族自治县的农田土壤为研究对象,测量了61个土壤高光谱反射率和土壤重金属含量数据(锌和镍),对高光谱反射率信息进行了0~2阶(间隔为0.05)分数阶微分预处理,将分数阶微分预处理后的各阶次的光谱反射率输入到连续投影算法(SPA)中进行特征波段筛选;分别建立了偏最小二乘回归(PLSR)、随机森林(RF)和袋装法(Bagging)三种土壤重金属反演模型。结果表明:在经过0到2阶(以0.05为间隔,共41个阶次)的分数阶微分处理,整体光谱强度呈逐渐减弱的趋势,伴随着分数阶阶次的增加逐渐趋向于零。光谱吸收带逐渐收窄,不同光谱曲线之间的差异逐渐减小,随着微分阶次的提高,产生了更为丰富的波峰和波谷。基于分数阶微分的最好阶次模型均优于原始光谱模型和整数阶模型,模型较好阶次大部分集中在低阶分数阶。对于重金属锌,预测模型精度最好的是0.75阶次的RF模型(R2=0.675, RMSE=6.149, RPD=1.755), 0.75阶次的Bagging模型次之(R2=0.633, RMSE=6.534, RPD=1.652), 0.25阶次的PLSR模型最低(R2=0.551, RMSE=7.230, RPD=1.493)。对于重金属镍,预测模型精度最好的是0.80阶次的RF模型(R2=0.854, RMSE=127.823, RPD=2.618), 0.80阶次的Bagging模型次之(R2=0.841, RMSE=133.304, RPD=2.510), 0.40阶次的PLSR模型最低(R2=0.762, RMSE=163.162, RPD=2.051)。本研究基于FOD预处理和SPA降维后构建的非线性模型(RF和Bagging)在农田土壤重金属含量估测具有一定的适用性,可以为类似区域的土壤重金属含量反演提供参考依据。
土壤是农业产出与植物生长的关键要素,保障土壤环境的品质和安全是确保社会经济的稳定发展以及保护人类健康不可或缺的条件。随着工业的快速发展和城市化进程,土壤重金属污染问题日益突出[1]。 锌和镍作为土壤中常见的两大污染元素, 会随着食物链传递到人体中, 对人类身体健康带来重大威胁。 快速、 准确地探测土壤中重金属含量已成为当下待解决的问题。 传统的重金属污染检测方法需要进行复杂的化学实验分析, 繁琐耗时。 高光谱遥感技术具有快速、 成本低、 波段范围广等特点, 已被应用于定量预测土壤中各种物质的含量[2-4]。 对于土壤中的重金属, 有研究应用高光谱技术对其进行了反演研究。 Riedel等[5]通过室内反射光谱和实验室测量得到的Al、 As、 Ca、 Cu、 Fe、 K、 Mn等重金属的含量, 采用偏最小二乘法进行元素含量的估算, 实验结果表明高光谱技术可以对重金属含量值进行良好的定量估计。 Zhang等[6]以四川省古蔺县中部土壤为研究对象, 采用偏最小二乘回归和径向基函数神经网络对4种重金属(Cr、 As、 Ni、 Cd)的高光谱反演进行了研究, 结果表明, 连续小波变换与径向基函数神经网络相结合的方法获得了最好的反演效果。 Tan等[7]构建了偏最小二乘法、 岭回归、 Adaboost等模型对吉林省四平市土壤中重金属As含量进行了预测, 结果表明Adaboost具有最佳的预测准确性, 在测试集上的R2达到了0.624 2, RPD为1.563 4。
普洱市墨江哈尼族自治县在高原地区,农田广泛分布于高度多变、地形复杂的区域,这种特殊的地理环境使土壤污染情况呈现出鲜明的地域特征。县内设有一座集采矿、选矿、冶炼于一体的大型金矿,长期的开采活动导致周边农田土壤受到一定程度的污染。虽然高光谱技术在土壤重金属含量反演已取得显著成果,但鉴于该区域独特的地理特性和污染状况的特殊性,仍需对此区域的高光谱重金属反演进行深入的研究。
高光谱数据在采集的过程中,受测量仪器和环境因素的影响,所测得的土壤高光谱数据常常受到噪声干扰,具有多重共线性。在建立重金属含量的定量预测模型之前,通常需要对土壤光谱数据进行预处理。常用的预处理方法包括多元散射校正(MSC)、 Savizky-Golay平滑、 标准正态变换、 离散小波变换、 一阶微分和二阶微分等[8-10]。 近年来分数阶微分在土壤光谱信号分析领域得到了广泛应用。 相比于传统的整数阶微分, 分数阶微分(fractional order derivative, FOD)能够更全面地考虑位于分数阶微分处的高光谱反射率信息, 从而获得最优的分数阶微分预处理模型。 Wang等[11]应用分数阶微分对新疆艾比湖地区的土壤盐碱化问题进行检测, 结果表明最佳模型位于1.2阶微分处, 决定系数R2=0.66。 Zhang等[12]基于分数阶微分对新疆准噶尔盆地的土壤有机质含量进行反演, 结果在1.05阶至1.45阶间FOD光谱与土壤有机质的相关性更强。 王瑾杰等[13]采用无人机高光谱遥感技术, 基于分数阶微分对土壤含水量进行估算, 在0.4阶微分下获得了最优结果, 决定系数R2=0.874。 可见, 已有研究表明FOD能较为精确地获取土壤高光谱位于分数阶的细节信息, 基于分数阶构建的反演模型预测效果优于整数阶。
在土壤属性的定量反演中,采用不同降维方法和建模方法会导致预测结果的差异。采用ASD光谱仪采集的土壤高光谱数据具有波段数量多、 光谱信息重叠和数据冗余等特点, 在构建预测模型之前需要降低土壤高光谱的维度, 而连续投影算法(successive projections algorithm, SPA)是一种最小化向量空间共线性的前向变量选择算法, 其在高光谱领域进行特征波段筛选呈现出一定的优势, 而FOD与SPA的组合方式用于提取土壤重金属的特征波段的研究很少。
本研究将经FOD预处理后的各阶次光谱反射率数据输入到SPA中以筛选出特征波段, 在确定土壤锌和镊的特征波段后, 采用线性模型(偏最小二乘回归PLSR)和两种非线性模型(随机森林RF和袋装法Bagging)来构建土壤中重金属含量的预测模型, 并对各模型性能进行比较分析。 本研究目的: (1)研究分数阶微分对土壤光谱反射率的影响。 (2)探讨并比较整数阶模型与分数阶模型的性能。 (3)对基于FOD的PLSR、 RF和Bagging建立的土壤重金属锌和镍的反演模型进行分析比较。
1、实验部分
1.1 研究区域概况和数据收集
以云南省普洱市墨江哈尼族自治县的农田土壤为研究对象。据墨江县第二次土壤普查资料,该区域土壤呈明显的垂直带普分布,海拔从高到低依次分布着黄棕壤、红壤、赤红壤和砖红壤,土壤分布以砖红壤、赤红壤和红壤为主。于2022年2月11日到15日之间共采集土壤样本61个, 每个采样点的深度范围在0~20 cm之间, 采集的土样经风干、 去除杂质和研磨后分为两份, 一份用于土壤重金属含量的测定, 一份用于光谱数据的测定。 所采61个样本的有机质含量范围在4.61~55.60 g·kg-1之间, 平均值为22.36 g·kg-1。 土壤光谱反射率采用ASD FieldSpec®3型便携式光谱仪(波段范围为350~2 500 nm)在受控光照条件下的暗室中测定。 测量得到光谱数据和重金属含量, 用Kennard-Stone算法进行数据集划分[14]。
1.2 分数阶微分
分数阶微分(FOD)是数学中的重要概念, 将传统整数阶微分推广到任意阶, FOD可以更敏锐地捕捉光谱反射率细节的变化。 采用常用的Grunwald-Letnikov(G-L)形式进行FOD计算[15], 定义如式(1)
式(1)中,u为任意阶数;h为微分步长;b和a分别为微分的上限和下限;Γ为Gamma函数, 表示为式(2)
由于FieldSpec®3光谱仪的采样间隔为1 nm, 在式(1)中, 设h=1, 函数f(t)的u阶分数阶微分表达式推导如式(3)
式(3)中,Γ为Gamma函数;u为阶数, 当u=0时, 表示原始数据; 当u为整数时则为整数阶微分。
1.3 建模方法
采用连续投影算法(SPA)进行特征波段选择[16], 采用偏最小二乘回归(PLSR)[17]、 随机森林(RF)[8]和袋装法(bootstrap aggregating, Bagging)[18]三种方法来构建土壤重金属预测模型。 使用决定系数(R2)、 均方根误差(RMSE)和相对分析误差(RPD)作为评估模型性能的指标。
2、结果与讨论
2.1 土壤中重金属含量统计特征
总体样本统计特征和经Kennard-Stone算法划分后的训练集和验证集统计结果见表1, 总体样本土壤锌含量在30.3~86.7 mg·kg-1之间, 变异系数为21.151%, 属于中等空间变异。 总体样本土壤镍含量在18.9~1 019 mg·kg-1之间, 变异系数达到了104.800%, 属于高度空间变异, 数据波动大。 使用Kennard-Stone算法对训练集和验证集的划分, 使划分的数据具有较好的代表性。 划分后的训练集和验证集上土壤锌含量的变异系数为21.610%和18.401%, 镍含量的变异系数为105.913%和94.825%。
表1 两种重金属元素在整个数据集、 训练集和验证集上的统计描述
2.2 光谱数据分数阶微分预处理和特征波段筛选
对土壤原始高光谱采用G-L分数阶微分预处理后如图1(a—h)所示。 原始高光谱(0阶)反射率波动较大, 光谱曲线相对平缓, 没有太多的波峰、 波谷。 经0~2阶(间隔为0.05, 共计41阶)分数阶微分预处理后, 光谱整体强度逐渐减弱, 并随分数阶次的增加趋近于零。 同时光谱吸收带逐渐收窄, 不同光谱曲线之间的差异减小。 随着微分阶次的提高, 产生了更多丰富的波峰和波谷。 说明分数阶微分具有增强光谱曲线波峰、 波谷和斜率等信息的能力, 能更有效地提取光谱数据的特征并去除无关信息, 对于后续特征波段的提取有着很大的帮助。
为确保模型的简洁性,避免引入过多特征变量而增加噪声和冗余信息,在进行分数阶微分预处理之后,将各阶次(共41阶)的光谱数据分别输入到SPA算法中, 筛选了8个特征波段, 如表2所示(仅列出0阶、 0.25阶、 0.55阶、 0.75阶、 0.80阶、 1阶和2阶)。
图1 各阶次分数阶微分预处理高光谱曲线
表2 使用SPA算法所挑选的波段数
2.3 土壤中重金属含量预测模型的构建
为了探究分数阶微分预处理对模型性能的影响,分别以SPA算法筛选出的各阶次的特征波段作为自变量, 土壤重金属锌和镍的含量为因变量, 构建了PLSR、 RF和Bagging三种模型来估算土壤重金属锌和镍的含量。
土壤重金属锌和镍各项指标随微分阶次增加的变化趋势如图2和图3所示, 在大多数阶次下, 分数阶微分模型的预测性能都优于原始光谱模型(0阶)和整数阶模型(1阶和2阶)。 对于重金属锌, 如图2(a)—(i), 三个模型在0~0.80阶的大部分阶次的R2和RPD都大于1阶以后的大部分阶次, RMSE都小于1阶以后的大部分阶次, 表明随着分数阶求导阶次的增加, 不能明显提高重金属锌反演模型的性能, 模型性能较好的阶次集中在低阶。 对于重金属镍, 如图3(a)—(i)所示, 同样, 三个模型在0~0.80阶的大部分阶次的R2和RPD都大于1阶以后的大部分阶次。 然而相比于重金属锌, 三个模型在1.60阶时的R2和RPD都分别超过0.75和2.0。
表3和表4分别列出了重金属锌和重金属镍三个模型的最好微分阶次、 原始光谱(0阶)、 1阶和2阶的建模结果评价指标。 结果表明, 基于分数阶微分的最好阶次模型的性能均好于原始光谱模型、 1阶模型和2阶模型。 对重金属锌, PLSR在0.25阶次上获得了最好的模型性能(RPD=1.493), 相比于原始光谱在验证集上R2提高了0.272, RMSE降低了1.934, RPD提高了0.315。 RF和Bagging都在0.75阶次上获得了最好的模型性能(RPD分别为1.755和1.652), 相比于原始光谱RF和Bagging在验证集上的R2和RPD分别提高了0.258、 0.445和0.188、 0.309, RMSE分别降低了2.087和1.503。 对重金属镍, PLSR在0.40阶次上获得了最好的模型性能(RPD=2.051), 相比于原始光谱在验证集上的R2和RPD提高了0.193和0.529, RMSE降低了56.628。 RF和Bagging都在0.80阶次上获得了最好的模型性能(RPD分别为2.618和2.510), 相比于原始光谱,RF和Bagging在验证集上的R2和RPD分别提高了0.461、 1.334和0.317、 1.061, RMSE分别降低了132.805和97.630。
图2 重金属锌(Zn)在不同阶次下的各模型验证集评价指标
图3 重金属镍(Ni)在不同阶次下的各模型测试集评价指标
整数阶微分是常用的土壤高光谱数据预处理方法,有许多研究已经使用一阶或二阶微分对土壤光谱进行预处理,并显示出其有一定的应用潜力[19-20]。 然而, 整数阶微分会忽略位于分数阶微分处的高光谱反射率, 无法捕捉到更详细的光谱信息, 从而影响反演模型的性能。 分数阶微分不仅是整数阶微分概念的扩展, 而且为选择更加灵活的阶次提供了可能, 从而拓宽了微分的应用范围。 本研究中使用了0.05的微分间隔对土壤光谱数据进行了0~2阶微分预处理。 与已有研究普遍选择0.1、 0.2、 0.25的微分间隔不同[21-23], 选择0.05的微分间隔能够获得更详细的光谱反射率信息, 从而更好地获得最好微分阶次模型。 如图1所示, 随着分数阶次的增加, 出现了更多的波峰和波谷, 基线漂移逐渐被消除, 光谱反射率强度逐渐降低, 与张俊华等[22]和Hong等[24]在基于分数阶微分的土壤光谱反演研究中观察到的变化趋势一致。
分数阶微分模型在大多数阶次下的反演性能均优于整数阶模型。Hong等[24]基于分数阶微分对武汉市农田土壤中的重金属含量进行了反演, 指出重金属锌在0.5阶次的RF模型上获得了最好模型性能(R2=0.83), 重金属铅在0.25阶次的RF模型上获得了最好模型性能(R2=0.82); Cui等[21]以新疆阿勒泰地区的金铜矿区为研究区域, 采用分数阶微分对土壤重金属铜的含量进行估算, 结果显示0.8阶次的PLSR模型效果最好(R2=0.64); Chen等[25]采用分数阶微分和线性回归评估土壤重金属铬、 锌、 铅的含量, 铬和锌在0.75阶次上获得了最好的反演性能(R2分别为0.74和0.81), 铅在0.5阶次上获得了最好反演性能(R2=0.56)。 本研究建模结果表明, 对于土壤重金属锌, PLSR、 RF和Bagging分别在0.25、 0.75、 0.75阶次下获得了最好的反演精度(R2分别为0.55、 0.68、 0.63)。 对于土壤重金属镍, PLSR、 RF和Bagging分别在0.40, 0.80, 0.80阶次获得了最好的反演精度(R2分别为0.76、 0.85、 0.84)。 通过采用FOD+SPA的预处理和特征波段筛选方法, 成功获得了与前人研究相似甚至更为出色的建模效果。 还观察到在不同的区域和采用不同的建模方法时, 由于土壤的结构性质不同和各种建模方法有一定的差异性, 在采用分数阶微分进行建模时所得到最好阶次往往存在差异。
表3 重金属锌(Zn)在不同建模方法下最好分数阶微分阶次和整数阶微分的模型预测精度对比
表4 重金属镍(Ni)在不同建模方法下最好分数阶微分阶次和整数阶微分的模型预测精度对比
以土壤重金属含量的测量值作为横坐标,预测值作为纵坐标,图4和图5为三种建模方法下重金属锌和镍的最佳阶次散点图。 由图中看出, RF模型和Bagging模型的样本点相比于PLSR模型更接近1∶1线, 由此证明RF和Bagging具有更好的预测能力。 因为土壤光谱数据具有复杂性和非线性的特性, 无法通过简单的线性关系来准确表达。 考虑到RF和Bagging都是非线性模型, 而PLSR是线性模型, 在预测土壤重金属含量时, RF和Bagging表现出更强的预测能力。 RF和Bagging都属于集成学习模型, 集成学习通过整合多个模型的预测结果产生更强大的模型, 显著提高了模型的预测准确率和稳定性, 进一步证实了RF和Bagging相比于PLSR的优越性。
图4 重金属锌(Zn)在不同建模方法下最好阶次散点图
图5 重金属镍(Ni)在不同建模方法下最好阶次散点图
3、结论
(1)经过0到2阶的分数阶微分预处理, 光谱反射率整体强度呈递减趋势。 随着分数阶次的增加, 光谱强度逐渐趋向于零, 光谱吸收带逐渐收窄, 不同光谱曲线之间的差异降低, 产生了更多的波峰和波谷, 更有利于提取特征波段。
(2)最好阶次的分数阶微分模型性能均优于原始光谱模型和整数阶模型, 大多数较好模型阶次集中在低阶。
对比三种模型,土壤重金属锌预测模型精度最好的是0.75阶次的RF模型(R2=0.676, RMSE=6.149, RPD=1.755), 其次是0.75阶次的Bagging模型(R2=0.633, RMSE=6.534, RPD=1.652), 最后是0.25阶次的PLSR模型(R2=0.551, RMSE=7.230, RPD=1.493); 对于重金属镍, 预测模型精度最好的是0.80阶次的RF模型(R2=0.854, RMSE=127.823, RPD=2.618), 0.80阶次的Bagging模型次之(R2=0.841, RMSE=133.304, RPD=2.510), 0.40阶次的PLSR模型最低(R2=0.762, RMSE=163.162, RPD=2.051)。
基金资助:国家自然科学基金项目(42067029); 云南省科技厅项目(202205AC160005); 云南省“兴滇英才支持计划”青年人才项目(KKXX202303001)资助;
文章来源:蒋宇恒,晏博,庄清源,等.基于分数阶微分的土壤重金属锌和镍的定量反演模型研究[J].光谱学与光谱分析,2024,44(10):2850-2857.
分享:
党的十八大报告提出大力推进生态文明建设,2015年中共中央、国务院印发《关于加快推进生态文明建设的意见》,生态文明建设在全国各地加快推进,绿色低碳转型、污染防治攻坚战、生态系统保护修复不断深入,取得来之不易的成果与经验,需要不断巩固、持续优化。
2024-10-09在生态环境监测与评价领域,大数据分析能够利用海量、多源、高分辨率的数据,通过多因素综合考虑和模型分析,实现精确、高效的生态环境监测与评价。同时,结合机器学习、人工智能等技术手段,可以对监测数据进行深度挖掘和智能分析,提高预测和决策的准确性。本研究将为未来的生态环境监测与评价提供新的思路和方法。
2024-10-09土壤是农业产出与植物生长的关键要素, 保障土壤环境的品质和安全是确保社会经济的稳定发展以及保护人类健康不可或缺的条件。 随着工业的快速发展和城市化进程, 土壤重金属污染问题日益突出[1]。 锌和镍作为土壤中常见的两大污染元素, 会随着食物链传递到人体中, 对人类身体健康带来重大威胁。
2024-10-09互花米草已经严重威胁湿地生态安全, 导致珍稀濒危鸟类数量和多样性急剧下降, 改变了线虫和大型底栖无脊椎动物群落的营养功能群结构, 对原生盐沼和海草床生态系统等造成了严重威胁[2]。 因此, 快速监测和评估互花米草的生长情况对于理解其种群动态和分布具有重要的实践意义。
2024-10-09土壤溶解性有机质(dissolved organic matter, DOM)是指土壤中可被水溶解, 能够通过0.45 μm滤膜的有机物质, 在土壤有机质库中具有可移动性和活跃性, 能够降低污染物活性、 维持土壤健康, 参与土壤C、 N、 P、 S循环, 在生物地球化学过程中起着关键作用[1-2]。
2024-10-09目前HN-AD和SOB菌株的研究主要集中于生活污水和工业废水方面,而从水产养殖环境中分离进行原位脱氮脱硫应用的研究较为匮乏[10-12];鉴于菌株的生态适应性和潜在的致病风险等因素,从水产养殖环境中分离筛选得到高效脱氮、脱硫益生菌株,并进行“土著土用”具有重要意义。
2024-10-09污泥作为城市污水处理过程中产生的副产物,具有含水率高、难脱水、处置困难等问题,厌氧消化作为有机废弃物处理的工艺之一,能够将有机份转化为甲烷实现碳回收、改善污泥稳定性和脱水性等诸多优点,是污泥处理的主要技术之一,尤其在欧美国家该工艺主导地位[1]。
2024-10-09水库水质受到诸多因素的影响,既包括自然因素(如气候变化、地质结构等),也涵盖人为因素(如工业排污、农业施肥等)。这些因素会影响水库水质的季节性变化、垂直分层以及长期趋势变化[2]。为了保证水库水质的安全,需要对其进行有效地管理和保护。
2024-10-09硅是土壤和岩石的基本成分,是地壳上含量居第二位的元素,在全球生物地球化学循环和缓解全球气候变化方面发挥着重要作用[1]。硅可以提高植物光合作用的效率、改变营养元素的化学计量比、提高植物对害虫和病原体的抵抗力、增强植物对干旱和重金属的耐受能力,进而提高农作物的质量和产量[2-3]。
2024-10-092020年9月22日,习近平主席在第七十五届联合国大会一般性辩论上首次提出中国的“双碳”目标,为中国未来的低碳转型促进经济高质量发展、生态文明建设指明方向,明确目标[2]。2020年年底和2021年年底的中央经济工作会议均强调要正确认识和把握碳达峰碳中和。
2024-10-09我要评论
期刊名称:环境科学
期刊人气:2322
主管单位:中国科学院
主办单位:中国科学院生态环境研究中心
出版地方:北京
专业分类:工业
国际刊号:0250-3301
国内刊号:11-1895/X
邮发代号:2-821
创刊时间:1976年
发行周期:月刊
期刊开本:大16开
见刊时间:一年半以上
影响因子:1.587
影响因子:0.566
影响因子:1.350
影响因子:0.000
影响因子:0.932
400-069-1609
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!