共查询到16条相似文献,搜索用时 62 毫秒
1.
近红外光谱具有高维小样本的特点,变量选择是提高定量分析模型稳健性和可解释性的一种有效方法。确定独立筛选(SIS)是一种基于边际相关性的超高维数据变量选择方法,广泛用于基因微阵列数据的变量选择。SIS具有将数据维度降低至样本大小规模的能力,其降维能力与LASSO相当,在相当宽泛的近似条件下,由于具有安全筛选性质,所有重要变量被保留的概率趋于1。基于确定独立筛选偏最小二乘(SIS-SPLS)的变量选择是一种迭代式的SIS变量选择方法,首先利用SIS方法完成光谱重要变量的初选;然后根据重要变量的边际相关性大小进行逐步前向选择:建立偏最小二乘回归模型,依据贝叶斯信息准则(BIC)确定最终的变量选择结果。SIS-SPLS以逐步前向选择的方式实现对重要变量的增量式筛选,随着潜变量个数的增加及因变量残差的逐步减小,SIS-SPLS方法选择的变量个数将趋于稳定。然而仅以边际相关性对变量重要性进行评价,当光谱变量个数远大于样本数时,该方法也存在选择的变量过多、变量选择结果不够稳健等问题。为进一步提高小样本情况下变量选择的稳健性,将集成学习引入SIS-SPLS方法之中,提出了一种集成SIS-SPLS变量选择方法(Ensemble-SISPLS)。该方法首先对校正集样本进行自助重采样,对采样得到的每一个校正子集分别使用SIS-SPLS方法进行变量筛选,通过投票机制并设置频次阈值对所有校正子集的变量选择结果进行集成,选择出现频次大于给定阈值的变量并建立偏最小二乘回归模型,计算5折交叉验证均方根误差。对频次阈值和潜变量个数两个关键参数使用网格搜索法进行优选,根据子模型的交叉验证均方根误差和变量个数对子模型性能进行综合评价,以最优子模型包含的变量作为最终的变量选择结果。分别在Corn数据集和当归数据集上进行变量选择实验,比较Ensemble-SISPLS,SIS-SPLS和UVE-PLS三种变量选择方法的性能。其中当归数据集共77个样本,样本采自甘肃岷县和渭源县,使用Nicolet-6700型近红外光谱仪扫描得到所有样本的近红外光谱并对当归中的阿魏酸含量进行预测。Ensemble-SISPLS方法在Corn数据集上选择的变量个数、RMSEP和决定系数分别为22,0.000 8和0.999 8;SIS-SPLS方法在Corn数据集上选择的变量个数、RMSEP和决定系数分别为97,0.007 3和0.998 8。Ensemble-SISPLS方法在当归数据集上选择的变量个数、RMSEP和决定系数分别为24,0.018 1和0.996 3;SIS-SPLS方法在当归数据集上选择的变量个数、RMSEP和决定系数分别为38,0.022 6和0.994 3。结果表明,该方法进一步提高了变量选择结果的稳健性和预测能力。Ensemble-SISPLS变量选择方法有效结合了SIS-SPLS较强的变量选择能力和集成学习良好的泛化能力,提高了变量选择的稳健性。此外,由于在子模型的预测能力和变量个数之间进行了折中,一定程度上减少了选择变量的个数,提高了模型的可解释性。 相似文献
2.
介绍了潜变量聚类分析方法的基本原理,并将该方法应用于近红外光谱定量模型的谱区选择。以烟草样品为例,对107个样品的光谱进行处理,将光谱分为5簇,从化学角度分别解释了这5簇各自反映的信息。在此基础上,选择相应的波长范围用PLS方法建立了总糖、还原糖和尼古丁的定量分析模型。与全谱模型相比,3个模型的交互验证相关系数(Rtraining)分别由0.977 1,0.917 2,0.987 4提高到0.995 5,0.975 1,0.994 4;验证样品相关系数(Rtest)由0.977 8,0.941 2,0.993 2提高到0.992 7,0.967 9,0.994 0;交互验证均方差(RMSECV)由1.09,1.43,0.14降为1.05,1.05,0.13;预测残差均方差(RM-SEP)由0.92,1.17,0.16降为0.39,0.63,0.11;预测样品间平均标准误差(D)由1.274%,1.972%,0.829%降为0.711%,0.843%,0.768%,表明用该方法建立模型的预测准确度和精密度均有所提高,对实际应用有一定的指导作用。 相似文献
3.
近红外光谱结合化学计量学方法对癌症的辅助诊断已有了文献报道.该文测定了77例不同生理阶段的子官内膜组织病理切片的近红外光谱,对其分别进行多元散射校正(MSC)、正交信号校正(OSC)以及二者联用的预处理方法,采用拉丁配分法选择3/4样本作为训练集,1/4样本作测试集,建立支持向量机(SVM)模型进行分类,并与基于同样预... 相似文献
4.
近红外光谱结合化学计量学方法对癌症的辅助诊断已有了文献报道.该文测定了77例不同生理阶段的子官内膜组织病理切片的近红外光谱,对其分别进行多元散射校正(MSC)、正交信号校正(OSC)以及二者联用的预处理方法,采用拉丁配分法选择3/4样本作为训练集,1/4样本作测试集,建立支持向量机(SVM)模型进行分类,并与基于同样预处理方法建立的偏最小二乘(PLS)模型分类结果进行了比较.SVM对正常、增生和癌变三类不同的组织样品分类结果较好,总分类正确率约92%,好于PLS模型的结果(最高正确率90%).研究结果表明,光谱数据的预处理和建模方法对分类结果有重要影响,SVM结合子宫内膜组织的近红外光谱有望发展成为一种新型的肿瘤诊断方法. 相似文献
5.
近红外光谱分析中的变量选择算法研究进展 总被引:4,自引:0,他引:4
随着人们对近红外光谱分析技术了解的深入,人们发现通过剔除近红外光谱中的冗余变量不仅可以简化近红外光谱分析模型,提高模型的可解读性,通常还可以提高模型的预测效果及稳健性。变量选择的有效性已经在各种近红外光谱应用体系中得到了广泛的验证,发展成为了近红外光谱分析建模过程中一个越来越重要的步骤。为此,化学计量学家们近些年来开发了大量原理不同的新型变量选择算法,基于各种原理的衍生算法也层出不穷。为了让近红外光谱分析研究人员能够较为迅速地对这些算法的特点有所认识,对目前常见的各种变量选择算法的算法原理和优缺点进行了梳理。根据各种算法依据的原理不同,将目前近红外光谱领域常见的变量选择算法大致分为基于偏最小二乘模型参数,基于智能优化算法,基于连续投影策略,基于模型集群分析策略和基于变量区间等五类。在梳理的过程中,我们发现变量选择算法的发展趋势目前主要集中在以下两点:第一,算法的复杂程度不断提高;第二,不同变量选择算法之间的联用开始逐渐增多。此外,作者结合自身在应用变量选择算法时的体会和思考,还总结了变量选择算法在应用层面上存在的一些问题。例如光谱预处理方法对变量选择算法使用效果的影响,以及部分算法存在的稳定性较差,选择变量的可靠性存疑等。 相似文献
6.
SVM回归法在近红外光谱定量分析中的应用研究 总被引:6,自引:9,他引:6
研究了基于统计学习理论的支持向量机(SVM)回归法在近红外光谱定量分析中的应用。以66个小麦样品为实验材料,由33个小麦样品作为校正样品,采用4种不同核函数方法对小麦样品蛋白质含量与小麦样品近红外光谱进行SVM回归建模。以所建4种不同SVM回归模型对33个小麦预测样品的蛋白质含量进行了预测;不同回归模型的预测结果与凯氏定氮法确定的蛋白质含量的标准化学值间的相关系数均在0.97以上,平均绝对误差小于0.32。为了考察SVM回归校正模型的预测效果,同所建PLS回归模型的预测结果进行了比较,表明所建预测小麦样品蛋白质含量的SVM回归模型亦可通过近红外光谱进行实际样品的定量分析,且有较好的分析效果。 相似文献
7.
近红外光谱技术是一种通过分析样本的特征光谱数据,实现定性或定量分析的无损检测方法,特征数据的完整性和代表性决定了所建模型的性能,而现有分析方法只能实现光谱子区间特征筛选,导致分析模型稳定性差、且难以再优化。为实现近红外光谱区间高维数特征提取,有效提高近红外光谱定性分析模型的精度和稳定性,提出一种基于最小绝对收缩和选择算法(LASSO)的光谱特征筛选方法,并以我国特色高值外贸产品云南松茸为分析对象进行聚类应用研究,讨论了该方法对于高维光谱特征筛选的有效性、分析对比了LASSO筛选特征变量及主元分析(PCA)降维算法所建松茸真伪甄别及食用菌分类模型的预测精度及稳定性。通过调研发现,云南产鲜松茸因其独特外形易于分辨,而片状的干松茸失去其独有的外形特征,导致国内干松茸掺假事件屡禁不止。选取云南产松茸、杏鲍菇、老人头、姬松茸四种干样共166样本数据进行分析,采用光谱范围为900~1 700 nm的NIRQuest512型近红外光谱仪获得166×512维原始光谱数据,剔除异常数据后采用标准正态变换对光谱数据进行预处理。在此基础上,利用LASSO筛选出全光谱区间的特征变量,再使用Kennard-Stone法并结合典型线性(KNN)和非线性建模(BP)算法,构建松茸真伪甄别模型和食用菌分类模型,对两种模型进行盲样测试,并分析了LASSO与PCA算法的不同点,最后使用蒙特卡罗方法检测两种模型的稳定性。实验结果表明基于LASSO光谱特征选择的松茸真伪甄别模型和食用菌分类模型预测精度和稳定性均高于PCA方法,其中基于原始光谱数据所建真伪甄别模型的预测准确率为69.57% (BP)和60.87% (KNN),食用菌分类模型准确率为67.39% (BP)和65.22% (KNN),基于LASSO特征筛选的真伪甄别模型预测准确率分别达到100% (BP)和78.26% (KNN),食用菌分类模型预测准确率分别达到89.13% (BP)和80.43% (KNN),对两种模型进行10次蒙特卡罗实验,其结果平均值分别为99.93%和97.22%,由此可知,与PCA等数据降维算法相比,LASSO可实现全光谱区间的光谱特征选择和数据降维,有效地提高了近红外定性分析模型的预测性能,为近红外分析提供了一种新的特征筛选方法。 相似文献
8.
基于近红外光漫反射谱技术的检测分析具有简单,快捷,安全等优势而被广泛应用于各行各业。应用近红外光谱分析技术实现不同煤种的快速分类,该方法可以替代费时费力费财的传统化学分析方法。同时首次将置信学习机(confidence machine)引入近红外分析中,实现了对分析结果的风险评估。采集了来自不同矿区共四种不同煤种(肥煤,焦煤,瘦煤和贫瘦煤)的199个煤样本的近红外光谱,通过机器学习的方法针对煤的近红外光谱构建了煤种分类器来实现煤种的快速分类。在近红外分析中引入了置信学习机的分析方式,结合支持向量机(SVM),构建了离线和在线的CM-SVM分类器。置信学习机是一种概率方法,使用概率(CM-SVM)来取代分类超平面(SVM)进行分类,不仅分类效果好于传统的SVM,达到了95.48%的分类率,还能同时给出每个样本分类结果的置信度,可靠度等风险信息。另外,CM-SVM通过对置信水平的设定,得到不同置信度下预测区间,该区间的预测正确率是与置信水平严格对应的,对于产品质量控制有非常重要的意义。置信学习机同时是一种在线的学习模型,新样本的不断加入会提高模型的性能,非常适合于工业现场的在线分析。在线的CM-SVM模型随着样本数的增加,预测结果的置信度有所提高,对工业现场近红外分析有重要意义。 相似文献
9.
应用近红外光谱技术无损分析小麦种子短期自然老化过程中主要化学成分的变化趋势,并结合支持向量机建立快速判别小麦种子自然老化程度的分析模型。本实验应用VERTEX 70傅里叶变换红外光谱仪,以大样品杯旋转采样方式跟踪采集了45份小麦种子在自然老化初期、4个月、7个月、9个月的近红外光谱。标准差可以用来表征数据离散程度,因此本实验通过计算每份样本在4个自然老化阶段的光谱标准差来筛选与自然老化时间显著相关的谱区。为避免单个样本由于偶然因素导致的离散度值异常,实验统计了45份样本的光谱标准差均值,根据均值光谱得到如下谱峰:8 362,6 950,7 563,5 319,4 998和4 478 cm-1处。解析谱峰所在区域对应的化学基团归属可得:6 950 cm-1处对应的是液态水中O-H伸缩振动的一级倍频且该处离散度值较大,因此小麦种子在短期自然老化阶段中水分变化较为显著;5 319,4 998和4 478 cm-1处离散度值较6 950 cm-1处小,对应的是蛋白质仲酰胺、伯酰胺和酰胺的合频和倍频信息,因此蛋白质变化较水分而言相对平缓;8 362和7 563 cm-1处反映的主要是C-H振动的二级倍频信息且离散度值较大,而种子中蛋白质、淀粉等均具有C-H官能团,因此蛋白和淀粉等成分综合变化较为显著。在上述分析基础上,本文采用多分类支持向量机结合近红外光谱建立快速识别小麦种子四种自然老化程度的定性模型。将180份样本光谱按照3∶1随机抽取135个样本作为训练集,其余样本作为测试集。选择核函数为径向基函数,通过网格搜索法进行参数寻优得到惩罚参数为8,核参数为0.008 974 2时,训练集和测试集的识别正确率可达99.26%和99.78%。实验结果表明:近红外光谱技术结合支持向量机可快速判别小麦种子短期自然老化程度,为种子贮藏过程中生理特性变化的无损监测及开发利用提供便捷的检测手段。 相似文献
10.
基于近红外光谱的淡水鱼新鲜度在线检测方法研究 总被引:1,自引:0,他引:1
新鲜度是反映鱼类品质以及可否食用的重要指标,在线检测直接关系到食品质量与安全的实施应用,因此对淡水鱼新鲜度进行在线无损检测具有重要意义。应用近红外光谱对淡水鱼新鲜度进行在线检测,试验装置采用自行搭建的淡水鱼近红外光谱在线采集装置,试验时样品在输送链上以0.5 m·s-1的速度运动,采集其近红外漫反射光谱(900~2 500 nm),并用支持向量机(support vector machine, SVM)建立淡水鱼新鲜度在线检测模型。采用光谱理化值共生距离(sample set partitioning based on joint X-Y distance algorithm, SPXY)算法对样本集进行划分,其中校正集111条(新鲜57条,变质54条)、测试集37条(新鲜19条,变质18条),通过对比不同的光谱预处理方法对预测结果的影响,明确了一阶导结合标准化预处理为最优光谱预处理方法,经过该方法预处理后所建模型对校正集的正确识别率为97.96%,对测试集的识别率为95.92%。为了提高模型运行速度对建模所用光谱变量进行优化,分别采用遗传算法(genetic algorithm, GA)、连续投影算法(successive projection algorithm, SPA)和竞争性自适应重加权算法(competitive adaptive reweighed sampling algorithm, CARS) 三种不同的特征变量选择方法对特征波长进行筛选,通过建模比较分析确定CARS为最优波长选择方法,以所选的10个特征波长建立淡水鱼新鲜度支持向量机检测模型,模型对校正集的正确识别率为100%,对测试集的识别率为93.88%。该研究可为近红外光谱用于淡水鱼新鲜度在线检测提供技术支持。 相似文献
11.
近红外(NIR)光谱一般具有较多的波长变量数,对其直接或间接地进行变量选择是提高模型稳定性能及预测性能的关键。最小角回归(LAR)是一种相对较新和有效的机器学习算法,常用于进行回归分析和变量选择。面向光谱建模应用,提出一种LAR结合遗传偏最小二乘法(GA-PLS)的变量选择方法,可有效筛选出少数特征波长点。首先在全光谱区利用LAR消除变量间的共线性得到初筛波长点,然后用GA-PLS对LAR筛选出的波长点进一步优选从而得到最终建模用的特征波长点。为验证本文方法的有效性,以药片和汽油的近红外光谱回归分析作为应用案例,对原光谱进行预处理后,采用该方法进行变量筛选,然后分别建模其中的活性成分含量和C10含量。结果显示,在这两个应用中,最终优化得到的特征波长点数均只需七个,而两者的预测决定系数R2p分别达到0.933 9和0.951 9,与全光谱、无信息变量消除法(UVE)和连续投影算法(SPA)等方法相比,特征波长点更少,同时R2p和预测均方根误差RMSEP值更优。因此,LAR结合GA-PLS,能有效地从近红外光谱中选择出信息变量从而减少建模波数,提高预测精度,拥有较好的模型解释性。该方法可为特定领域的专用光谱仪设计提供有效的波长筛选工具。 相似文献
12.
灰度关联分析是通过关联度的计算来理清系统中各因素之间的主次关系,找出影响较大的因素。简述了灰度关联分析的基本原理,并利用其对180个烟草样品的近红外谱进行了谱区优化,选取其中120个样品用于建模,另外60个样品用于模型检验。进一步利用偏最小二乘法和径向基支持向量机法分别建立了烟草样品的总糖、还原糖、烟碱及总氮的定量分析模型。结果表明,将灰度关联分析与支持向量机法联合用于烟草近红外光谱四个组分的定量分析,其模型的泛化能力和预测精度均有较明显的提高,从而能够有效地提高建模效率。 相似文献
13.
将经典的卡尔曼滤波器与近红外光谱分析技术相结合,提出了一种新的特征波长变量选择方法——卡尔曼滤波法。分析了卡尔曼滤波器用于波长优选的原理,设计了波长选择算法并将其应用到大豆油脂酸价的近红外光谱检测中。首先利用偏最小二乘法(PLS)对油脂不同吸收波段建模,初步筛选出4 472~5 000 cm-1油脂酸价特征波段共132个波长点,然后进一步利用卡尔曼滤波器进行特征波长选择,从中优选出22个特征波长变量建立PLS校正模型,预测集决定系数R2、预测误差均方根RMSEP分别为0.970 8和0.125 4,与利用132个波长点建立的校正模型预测结果相当,而波长变量数减少到原来的16.67%。该波长变量选择算法是一种确定性的迭代过程,无复杂的参数设置和变量选择的随机性,物理意义明确。优选出少数对模型影响较大的特征波长变量以代替全谱建模,在简化模型的同时提高了模型的稳健性,为开发专用油脂近红外光谱分析仪器提供了重要参考依据。 相似文献
14.
智能优化算法应用于近红外光谱波长选择的比较研究 总被引:3,自引:0,他引:3
近红外光谱(NIRS)是一种间接分析技术,其应用需建立相应的校正模型。为了提高模型的解释能力、预测准确度和建模效率,需要对NIRS进行波长选择,优选最小化冗余信息。智能优化算法是以生物的行为方式或物质的运动形态为背景,经过数学抽象建立算法模型,通过迭代计算来求解组合最优化问题,其核心策略是以某种目标函数为标准,基于多元校正建模并以逐步逼近的方法筛选出有效的波长点。选用蚁群优化(ACO)、遗传优化(GA)、粒子群优化(PSO)、随机青蛙(RF)和模拟退火(SA)5种智能优化算法对烟叶总氮和烟碱近红外光谱数据进行特征波长选择,结合偏最小二乘(PLS)算法,构建了多个烟叶总氮和烟碱的校正模型,结果显示:所选用两个数据集的总氮最优模型分别为PSO-PLS和GA-PLS模型,烟碱最优模型分别为GA-PLS和SA-PLS模型,五种智能优化算法所建模型预测性能并非全部优于全谱PLS模型,但是通过智能优化算法进行波长选择后建立的PLS模型大大简化,模型的预测精度、可解释性和稳定性均有所提高。同时也对优选波长进行了解释和分析,烟叶总氮特征波长优选组合为4 587~4 878和6 700~7 200 cm-1;烟叶烟碱特征波长优选组合为4 500~4 700和5 800~6 000 cm-1,优选出来的特征波长具有实际物理意义。 相似文献
15.
药品质量关乎人民健康和国家命脉,随着社会经济的飞速发展对药品质量的快速、有效鉴别具有极其重要的作用。光谱分析技术具有较高的准确性、较快的分析速度且对样品不存在污染等突出优点,广泛应用在化工、石油以及医药等重要的领域。为了解决传统药品鉴别模型存在的鉴别精度低、鉴别速度不能满足实际需求且鉴别模型稳定性差的问题,采用光谱仪采集药品的近红外光谱数据达到对药品无污染鉴别的目的。结合随机森林和CatBoost对药品进行分类鉴别,以实现快速且准确的鉴别。首先采用随机森林(RF)对光谱仪采集的光谱数据进行有效特征波长的筛选,从而将药品光谱数据中的无关波长去除、筛选出最能表征样品属性的特征波长,然后以极限学习机(ELM)作为CatBoost的弱分类器分析筛选的特征波长对药品的属性鉴别。由于ELM仅只含有一个隐含层且无需多次迭代寻优保证了鉴别模型运行速度更快,CatBoost通过集成弱分类器以改善模型鉴别准确性。为对所提出的药品鉴别模型性能进行有效评估,采用随机抽取训练集的方式构造不同规模药品光谱数据并分别上进行独立实验且以10次运行结果的均值作为其最终结果,并通过与CatBoost、持向量机(SVM)、... 相似文献
16.
煤种信息为煤炭质量评价、进出境税收征管提供技术支撑。传统煤种鉴别方法需测定煤炭样品干燥无灰基挥发分、低煤阶煤透光率、粘结指数、恒湿无灰基高位发热量等指标,能耗大,检测周期长,不利于口岸快速通关。基于不消耗化学试剂、快速、低成本等优势,采用近红外光谱鉴别煤种受到广泛关注,但目前还未有针对全球不同产地来源煤炭的煤种鉴别应用,煤炭近红外光谱特征与煤种的相关关系仍有待挖掘。采集了来自澳大利亚、俄罗斯、印度尼西亚等9个国家410批进口煤炭代表性样品,涉及褐煤、烟煤和无烟煤3个煤种,对比分析了不同煤种煤炭样品的漫反射近红外光谱特征,发现不同煤种煤炭样品近红外光谱在吸光度、光谱斜率、特征峰上存在差异。结合样品成分信息、X射线衍射、近红外光谱进行数据挖掘,发现近红外光谱吸光度与煤炭中固定碳含量呈正相关,光谱斜率与煤炭芳构化呈负相关,煤炭芳构化增加导致长波长方向的吸收系数增大,光谱斜率变小,光谱特征吸收峰主要为水分和有机物质含氢基团的特征信息,特征峰强度取决于煤炭中水分和挥发分含量。采用主成分分析(PCA)进行数据降维,光谱变量从1 557个降到394个,对前10个主成分进行逐步判别,筛选出PC1,PC2,PC3,PC4,PC6,PC7,PC8,PC9和PC10代替原始数据作为模型输入变量,建立煤种鉴别的Fisher判别分析模型,建模样品验证准确率为98%,交叉验证准确率为97.8%,测试样品验证准确率为99.1%。PCA载荷图表明:PC1和PC2主要与煤炭挥发分含量相关,其次是水分含量。判别函数1(57.7%)与PC1的相关性最强,判别函数2(42.3%)与PC2的相关性最强,说明不同煤种中挥发分含量和水分含量的差异是近红外光谱进行煤种鉴别的内在依据。 相似文献