摘 要: | 变量选择经常被用于优化近红外光谱线性校正模型,消除冗余信息,提升回归的准确性和可解释性。该文研究并设计了一种基于蒙特卡洛的方法,用于评估不同线性校正方法在变量选择的子空间中能达到的最优程度,寻找变量选择对线性校正模型的优化极限。该方法通过获得验证指标——预测均方根误差(RMSEP)的分布图,揭示变量选择方法在数据集上的优化效果与优化极限。将该方法应用于3组样品的近红外光谱建模研究,结果表明:在烟草-果胶数据集上的可优化率约为24.98%,RMSEP降低了15.2%;在小麦-蛋白质数据集上的可优化率约为13.90%,RMSEP降低了9.5%;在玉米-淀粉数据集上的可优化率约为14.05%,RMSEP降低了57.1%。应用该方法可以快速得到变量选择方法在模型上的优化极限,为变量选择方法的设计、应用和评估提供参考。
|