近日,河南大学和中国农科院灌溉所在农林科学领域中科院一区期刊Computers and Electronics in Agriculture(IF=8.3)上发表了题为“Multi-random ensemble on Partial Least Squares regression to predict wheat yield and its losses across water and nitrogen stress with hyperspectral remote sensing”的研究论文。河南大学农学院与中国农科院灌溉所联合培养硕士研究生毛柏涵为第一作者,中国农科院灌溉所陈震副研究员、河南大学李浩教授为共同通讯作者。
引言:
无人机在低空作业中可以高效、智能地遥感作物冠层信息,随着现代机器学习算法应用研究逐步增多,无人机遥感结合机器学习算法在遗传育种和生产实践研究中的应用愈发成熟。很多研究通过高光谱设备捕获植被冠层光谱反射率,利用机器学习算法可以拟合训练数据中的高通量遥感信息,构建反演或预测作物信息模型,其性能取决于建模方法和训练数据质量。当作为预测目标的作物与构成训练数据的作物存在生长自差异较大的逆境时,将会使模型产生预测性能上的损失。
研究采集了两个地区冬小麦多个生育期的水胁迫和氮胁迫情境下的高光谱遥感数据和实测产量信息(图1),分析对比了前人小麦表型研究中具有良好表现的随机森林回归(RFR)与偏最小二乘回归(PLSR)算法应用效果,验证并数字化了跨水、氮胁迫产生的性能损失。针对性地提出了多重随机集成偏最小二乘回归(MRE-PLSR)算法,并以皮尔逊相关系数(PCC)和平均绝对误差(MAE)作为评估指标,在三台不同的计算机设置100次重复运行,对模型性能进行了评估和基准测试。
图1. 研究区域和实验设计。(a) 研究区域位置。(b) 和 (c) 新乡综合试验基地和邢台试验基地的水氮胁迫处理分布。
结果和分析:
研究人员对每个数据集进行了100次随机的5折交叉验证,作为非跨逆境下模型的表现,与同地区跨水、氮胁迫条件下训练模型的预测结果进行分析对比,RFR和PLSR均出现了明显的性能损失,其中PLSR对高光谱的降维能力在一定程度上减小了性能损失。研究在此基础上提出了多重随机集成偏最小二乘回归(MRE-PLSR,图2)算法,并构建了多次随机组合特征与样本捕获框架,可在减小对单一样本特定波长过拟合的同时提高每一个样本特征的贡献率。
图2. 多重随机集成偏最小二乘回归的流程图。
在跨水、氮胁迫的条件下,PLSR的预测精度优于RFR,MRE-PLSR较PLSR进一步将PCC平均提高14.5%。在RFR和PLSR性能损失最严重的组合中,MRE-PLSR的PCC较PLSR提升37.5%;与真实产量对比,MRE-PLSR的预测结果可以很好的反映出产量在受胁迫条件下的损失情况(图3)。
图3. 四种试验处理下的产量表现和预测产量的统计分析。(a)实测产量。(b)预测产量。***表示与对照组相比,胁迫造成产量下降明显(P < 0.005)。
MRE-PLSR被验证具备经迁移学习进行模型更新的能力,通过构建迁移学习框架(图4),异地大样本数据集训练的模型经本地区10%样本进行更新后,MAE平均可降低37t/hm2,且不会带来PCC的下降。该研究设置并验证了逆境对小麦产量预测模型的影响,并为今后机器学习与定量遥感在智慧农业领域所面临的跨逆境挑战探索提供了新的发展思路。
图4. 基于MRE-PLSR的迁移学习框架。
基金项目:
该研究得到河南省重大科技专项(221100110700)、国家重点研发计划项目(2023YFD1900705)、国家重点研发计划青年科学家项目(2023YFF1002200)、河南省省级科技研发计划联合基金(222301420102)的资助。
原文链接:https://doi.org/10.1016/j.compag.2024.109046
推文作者:毛柏涵 河南大学农学院2022级硕士研究生
审核:李浩
Copyright © 2021 河南大学农学院 版权所有