首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
针对传统光谱法检测鸡蛋新鲜度存在的效率低、准确率不够高等问题,提出采用可见-近红外光谱结合极度提升树(XGBoost)等算法对鸡蛋新鲜度分类进行研究,以期在保证足够高准确度的同时大幅提高检测效率。将不同储存条件下的鸡蛋作为样本,并分别划分为训练集和测试集,采用训练集的综合评价指标(F-measure)和准确率(Accuracy)评估分类模型的性能。具体地,首先利用可见-近红外光谱系统采集鸡蛋的反射光谱,将所得的光谱数据经过不同预处理后再结合随机森林(random forest, RF)、偏最小二乘(partial least squares, PLS)、支持向量机(support vector machine, SVM)、多层感知机(muhi-layer perception, MLP)以及XGBoost等分类算法构建鸡蛋新鲜度分类评估模型,并对比各模型性能指标。分析结果发现,经Savitzky-Golay一阶导(Savitzky Golay first-order derivative, SG-1st-Der)预处理后的RF、 SVM、 XGBoost模型和经标...  相似文献   

2.
基于LVQ与SVM算法的近红外光谱煤产地鉴别   总被引:1,自引:0,他引:1  
传统煤产地鉴别方法一般以发热量、挥发分、粘结指数、哈氏可磨指数和坩埚膨胀序数作为分类指标,过程复杂耗时较多、耗费巨大的人力、物力并且无法直接快速的得到煤样产地等问题,借助近红外光谱技术快速无损检测的优势,利用基于SVM的留一算法对光谱数据集进行异常样本剔除,得到包含正确光谱信息的煤样光谱数据集,构造基于SVM算法与LVQ算法的定性分析模型,完成基于近红外光谱分析技术的煤产地的快速鉴别,无需对煤样的各种指标进行汇总并且人为预测。针对SVM分析模型中存在随机参数优化问题,引入PSO算法对SVM模型中的损失参数C和核函数半径g进行改进,得到最优参数,最后引入计算准确率的方法对比以上模型并进行评价分析。实验一共收集了加拿大、俄罗斯、澳大利亚、印度尼西亚、中国内蒙等5个地区的煤样光谱数据集,数据集共计305组煤样样本,其中异常样本共计10组,分别选择各国煤炭光谱的前31组作为训练样本,后6组数据作为测试样本,结果表明各分类模型的分类准确率均能达到75%以上,其中基于PSO算法改进的SVM分析模型的准确率可达到96.67%,仅一个样本出现问题,可快速高效地实现基于近红外光谱分析技术的煤产地的鉴别。  相似文献   

3.
基于NIR分析和模式识别技术的玉米种子识别系统   总被引:4,自引:0,他引:4  
模式识别技术及数据挖掘方法已成为化学计量学的研究热点。近红外(NIR)光谱分析以其快速、简便、非破坏性等优势广泛应用于光谱信号的处理和分析模型的建立。文章基于五种不同的模式识别方法:局部线性嵌入(LLE),小波变换(WT),主成分分析(PCA),偏最小二乘(PLS)和支持向量机(SVM),利用NIR技术建立了玉米种子的模式识别系统,并将其应用于108玉米杂交种和母本178种子的近红外光谱样品。首先利用LLE,WT,PCA,PLS进行消噪或降维,然后运用SVM进行分类识别,而一模支持向量机(1-norm SVM)算法直接进行分类识别。三个不同NIR光谱范围的数值实验显示:PCA+SVM,LLE+SVM,PLS+SVM识别效果甚佳,而WT+SVM和1-norm SVM方法也有较高的分类精度。实验结果表明了本文提出方法的可行性和有效性,为利用近红外光谱和模式识别技术进行种子识别研究提供了理论依据和实用方法。  相似文献   

4.
模式识别技术及数据挖掘方法已成为化学计量学的研究热点。近红外(NIR)光谱分析以其快速、简便、非破坏性等优势广泛应用于光谱信号的处理和分析模型的建立。基于五种不同的模式识别方法:局部线性嵌入(LLE),小波变换(WT),主成分分析(PCA),偏最小二乘(PLS)和支持向量机(SVM),利用NIR技术建立了玉米种子的模式识别系统,并将其应用于108玉米杂交种和母本178种子的近红外光谱样品。首先利用LLE,WT,PCA,PLS进行消噪或降维,然后运用SVM进行分类识别,而一模支持向量机(1-normSVM)算法直接进行分类识别。三个不同NIR光谱范围的数值实验显示:PCA+SVM,LLE+SVM和PLS+SVM识别效果甚佳,而WT+SVM和1-norm SVM方法也有较高的分类精度。实验结果表明了本文提出方法的可行性和有效性,为利用近红外光谱和模式识别技术进行种子识别研究提供了理论依据和实用方法。  相似文献   

5.
为探究一种快速、可靠的化橘红检测方法,本实验分别采用傅里叶变换衰减全反射红外光谱法和荧光光谱成像技术结合多层感知器(MLP)神经网络所构建的模式识别方法,对化橘红进行鉴别,并对两种方法进行了比较。实验以81个正毛化橘红,37个其他品种橘红共118个样品为研究对象,采集所有样品的红外光谱和荧光光谱图像。根据光谱曲线中不同样品间的差异,取红外光谱中550-1800 cm-1区段范围内的光谱数据和荧光光谱曲线中的400~720 nm区段的光谱数据进行分析,应用主成分分析法(PCA)对化橘红的光谱数据进行降维处理,再结合MLP神经网络对化橘红样品进行判别分析。实验中分别使用多元散射校正(MSC)、标准正态变量校正(SNV)、一阶导(FD)、二阶导(SD)以及Savitzky-Golay(SG)平滑数据预处理方法,并比较他们对鉴别模型的影响。分析结果表明:利用红外光谱法(FTIR/ATR),经由Savitzky-Golay(SG)平滑预处理得到的数据,通过隐层函数为sigmoid的三层MLP模型,能够得到最优正毛化橘红识别率,其结果训练集和测试集的识别率都为100%;利用荧光光谱成像技术,由多元散射(MSC)预处理的结果是最理想的。经过预处理的数据,通过隐层函数为sigmoid函数的三层MLP模型,训练集识别率达到100%,测试集识别率达到96.7%。由此可见,衰减全反射红外光谱法(FTIR/ATR)和荧光光谱成像技术分别与MLP神经网络构建的识别模式,均可对化橘红的判别达到快速、可靠的效果。  相似文献   

6.
新疆南疆是全国杏种植面积最大的地区,杏品种繁多。在杏果品市场中,不同品种杏的品质和价格差异较大,以次充好、品质参差不齐等现象严重制约了新疆杏果业的发展。为探究利用可见/近红外光谱快速检测杏品种的可行性,基于样品的可见/近红外光谱与化学计量学方法,对新疆南疆地区的6个品种杏进行定性判别分析,建立一种杏品种的无损鉴别方法。采用光谱仪采集6个品种杏(“黄杏”、“橄榄杏”、“小白杏”、“小米杏”、“库买提杏”、“小吊干杏”)在350~1 000 nm(VIS/NIR)和1 000~2 500 nm(NIR)两个范围内的光谱数据,去除原始光谱首端的噪声后,对保留的光谱使用Savitzky-Golay(SG)卷积平滑和多元散射校正(MSC)处理以消除光谱存在的干扰信息,采用主成分分析(PCA)、竞争性自适应重加权算法(CARS)、随机蛙跳(RF)、连续投影算法(SPA)对原始光谱降维,结合线性判别法(LDA)、朴素贝叶斯(NB)、 K最近邻(KNN)和支持向量机(SVM)对全光谱和降维后光谱建模对比。结果表明:基于全光谱数据建立的模型有较为准确的分类结果,在VIS/NIR范围,SVM模型分类正确率...  相似文献   

7.
光谱仪作为可见-近红外光谱分析核心工具,对于光谱分析的影响还有待深入研究。这里,以黄渤海沉积物为研究对象,利用安捷伦Cary 5000、 ASD FieldSpec 4、海洋光学QEPro三种光谱仪,研究有机碳含量的反射光谱及其光谱分析在不同光谱仪间的差异。其中,Cary 5000为室内台式光谱仪,FieldSpec 4和QEPro是便携式光谱仪;QEPro只能采集200~1 000 nm的反射率,而且反射率在三种光谱仪中最高;Cary 5000和FieldSpec 4能够采集完整的可见-近红外反射率(350~2 500 nm),光谱曲线几乎完全一致,尤其是近红外部分,但Cary 5000采集的反射率高于FieldSpec 4。三种光谱仪的光谱分析能力也存在显著差异,其中,Cary 5000的光谱分析能力最强,其光谱模型具有很强的预测能力,建模集r2高达0.99,验证集r2高达0.86,均方根误差(RMSE)在建模集和验证集分别为0.04、 0.11,相对分析偏差(RPD)高达2.6,显示了对黄渤海沉积物有机碳强大的预测能力。FieldSpe...  相似文献   

8.
由于近红外光谱在药品鉴别应用中具有分析速度快、样品无损、可现场检测等突出优点,目前已在众多领域中广泛应用。但近红外光谱存在信噪比低,吸收强度弱且谱峰重叠等缺点,无法从光谱中直接得到定性/定量的物质信息,因而近红外光谱分析技术常作为一种间接分析技术,并且光谱的化学计量学建模方法成为近红外光谱分析的核心内容。深度学习是机器学习的一个新的分支,并已经成功运用于多个领域。深度学习的网络结构和非线性的激活能力,使其模型特别适合高维、非线性的大规模数据建模。为进一步丰富近红外光谱建模方法,并提高近红外光谱分析技术的回归精度或分类准确率,将深度学习方法应用于近红外光谱分析,发展新的建模方法十分必要。面向近红外光谱定性分析技术,提出一种基于堆栈压缩自编码网络(SCAE)光谱定性分析方法,并应用于多类别药品的光谱分析,以区分或鉴别不同厂家生产的同种药品。压缩自编码网络(CAE)以自编码网络(AE)为基础,进一步加入雅克比矩阵作为约束项。自编码网络最初是用实现数据降维,以学习数据内部特征,而雅克比矩阵包含数据在各个方向上的信息,将其作为AE的约束项则可使提取到的特征对输入数据在一定程度下的扰动具有不变性,从而提高AE提取特征的能力。SCAE是一种由多层CAE构成的神经网络。前一层CAE的隐藏层作为后一层CAE的输入层,网络的全部参数是通过采用逐层贪婪的训练方式来获取的,训练结束后将所有网络视为一个整体,通过反向传播算法进行微调,最后使用Logistic/Softmax分类器进行定性分析。实验数据均为中国食品药品检定研究院采集,以头孢克肟胶囊作为二分类实验数据,硝酸异山梨酯片作为多分类实验数据。通过Bruker Matrix光谱仪测定每个样本在不同波长下的吸光度值得到其光谱曲线,再通过OPUS软件消除漂移等因素对光谱样本之间产生的偏差。接下来通过实验确定约束项雅克比矩阵的系数λ为0.003之后建立模型。建模过程分为五个阶段,分别为: 预处理阶段,预训练阶段,微调阶段,测试阶段和对比阶段。为了验证SCAE在分类准确性、算法稳定性和建模时间等方面的性能,与BP神经网络、SVM算法、稀疏自编码(SAE)和降噪自编码(DAE)开展对比实验研究。分类准确性方面,在不同的训练集与测试集的比例下,SCAE均有最佳的分类准确性与算法稳定性。建模时间方面,由于SVM算法不需要预训练和特征提取,所以运行时间方面比其他算法有大的优势,但是SCAE建模速度优于除SVM之外的其他对比算法。综合而言,使用SCAE进行药品鉴别有效可行。  相似文献   

9.
近红外光谱结合化学计量学方法对癌症的辅助诊断已有了文献报道.该文测定了77例不同生理阶段的子官内膜组织病理切片的近红外光谱,对其分别进行多元散射校正(MSC)、正交信号校正(OSC)以及二者联用的预处理方法,采用拉丁配分法选择3/4样本作为训练集,1/4样本作测试集,建立支持向量机(SVM)模型进行分类,并与基于同样预处理方法建立的偏最小二乘(PLS)模型分类结果进行了比较.SVM对正常、增生和癌变三类不同的组织样品分类结果较好,总分类正确率约92%,好于PLS模型的结果(最高正确率90%).研究结果表明,光谱数据的预处理和建模方法对分类结果有重要影响,SVM结合子宫内膜组织的近红外光谱有望发展成为一种新型的肿瘤诊断方法.  相似文献   

10.
近红外光谱法分析慈竹物理力学性质的研究   总被引:2,自引:0,他引:2  
采用近红外光谱法对慈竹密度、抗弯强度和顺纹抗拉强度进行快速预测.利用反向区间偏最小二乘法(BiPIS)优选光谱区间,建立原始光谱和不同预处理(一阶微分、二阶微分、卷积平滑和归一化处理)光谱分析模型,同时应用偏最小二乘法(PLS)在全谱范围350~2 500 nm建立各光谱分析模唰,并对所建模型进行比较分析.结果表明:同...  相似文献   

11.
研究了基于可见-近红外光谱技术的发动机润滑油含水量快速检测方法。在获取光谱信息的基础上,提出了采用不同的光谱建模方法以提高检测精度和简化分析计算。分别采用主成分分析(PCA)和连续投影算法(SPA)方法进行模型输入变量的提取。SPA最终选择了476,483,544,925,933,938,952,970和974nm共9个波长为最优变量。基于SPA选择的变量,分别应用偏最小二乘回归(PLSR)和多元线性回归(MLR)建模。效果均优于全波段PLSR模型和PCA-PLSR模型。说明SPA选择的有效变量能够包含最重要的全波段光谱信息,同时可以去除无用的信息变量。为了进一步提高检测效果,采用LS-SVM分别基于SPA选择后的有效变量和全波段光谱进行建模。两个模型的预测确定系数(Rp2)均在0.9以上。SPA-LS-SVM的效果要优于全波段LS-SVM模型的效果。SPA-LS-SVM模型的Rp2达到了0.983,剩余预测偏差(RPD)值为6.963。表明可见-近红外光谱可以用于发动机润滑油含水量的检测。  相似文献   

12.
基于近红外光漫反射谱技术的检测分析具有简单,快捷,安全等优势而被广泛应用于各行各业。应用近红外光谱分析技术实现不同煤种的快速分类,该方法可以替代费时费力费财的传统化学分析方法。同时首次将置信学习机(confidence machine)引入近红外分析中,实现了对分析结果的风险评估。采集了来自不同矿区共四种不同煤种(肥煤,焦煤,瘦煤和贫瘦煤)的199个煤样本的近红外光谱,通过机器学习的方法针对煤的近红外光谱构建了煤种分类器来实现煤种的快速分类。在近红外分析中引入了置信学习机的分析方式,结合支持向量机(SVM),构建了离线和在线的CM-SVM分类器。置信学习机是一种概率方法,使用概率(CM-SVM)来取代分类超平面(SVM)进行分类,不仅分类效果好于传统的SVM,达到了95.48%的分类率,还能同时给出每个样本分类结果的置信度,可靠度等风险信息。另外,CM-SVM通过对置信水平的设定,得到不同置信度下预测区间,该区间的预测正确率是与置信水平严格对应的,对于产品质量控制有非常重要的意义。置信学习机同时是一种在线的学习模型,新样本的不断加入会提高模型的性能,非常适合于工业现场的在线分析。在线的CM-SVM模型随着样本数的增加,预测结果的置信度有所提高,对工业现场近红外分析有重要意义。  相似文献   

13.
基于支持向量机的玉米苗期田间杂草光谱识别   总被引:5,自引:0,他引:5  
田间全面积均匀喷施除草剂不经济,还污染环境,精准喷施除草剂意义重大,其关键是正确识别杂草。用便携式野外光谱仪,在田间测量了玉米、马唐和稗草植株冠层在350~2 500 nm波长范围内的光谱数据,经过数据预处理,数据分析波长选为350~1 300和1 400~1 800 nm。数据处理采用支持向量机(SVM)模式识别方法。SVM具有可实现对小样本建模结构风险最小化、结果最优化、泛化能力强的优点。用线性、多项式、径向基和多层感知核函数对玉米和杂草建立二分类模型,结果表明,三阶多项式核函数SVM分类模型的正确识别率最高,达到80%以上,且支持向量比例较小。以二分类模型为基础,利用投票机制,建立了玉米、马唐和稗草的一对一多分类SVM模型,正确识别率达80%。田间光谱测量受光照、背景和仪器测量精度等条件的影响较大,但结果仍表明SVM结合光谱技术在田间杂草识别中应用潜力很大,此研究为田间杂草识别及传感器的建立提供了一种研究思路和应用基础。  相似文献   

14.
煤矸智能识别是实现综放开采智能化亟待研发的新技术;可见-近红外光谱技术具有环保、实时等优势,满足煤矸智能分选的要求。为解决基于可见-近红外光谱的煤矸识别问题,引入在数据科学竞赛中表现出色的极端梯度提升树(XGBoost)算法。搭建可见-近红外光谱实验平台采集来自山西西铭、陕西神木、内蒙古巴隆图煤矿的块状煤与矸石样品在370~1 049 nm波段的反射光谱;利用黑白校正、始末波段去除、SG卷积平滑和标准正态变量变换(SNV)对采集的原始光谱进行预处理,以减少光照不均、噪声以及光程差的影响。依据三个煤矿煤与矸石样品反射光谱的差异划分实验组和测试组,实验组差异微小,用于对比不同模型的性能,挑选最佳算法;测试组差异较明显,用于测试最佳算法在其他煤矿下的表现,检验算法对不同煤矿的适用性。在实验组的实验中,首先基于XGBoost算法建立煤与矸石分类模型,并引入常用的机器学习分类算法k近邻法(KNN)、随机森林(RF)、支持向量机(SVM)做对比,结果表明XGBoost的表现最佳,十折交叉验证的平均准确度(ACC10)、分类准确度(ACC)与AUC值分别达到0.957 2,0.970 5与0.971 6,体现出较强的稳定性与分类能力。其次为降低数据维度减少模型运算量,使用递归特征选择(RFE)、连续投影算法(SPA)与竞争性自适应重加权算法(CARS)分别进行特征波长的选择并与上述四种分类算法结合构建简化分类模型,经测试RFE与XGBoost组合的简化模型表现最佳,ACC10,ACC与AUC值分别为0.965 7,0.980 3与0.980 3且数据维度降至9,在降低数据维度的同时提高了模型的稳定性与分类能力。在测试组的实验中,基于优选出的XGBoost与RFE-XGB算法建立的模型,同样可以实现对其他矿区煤与矸石稳定精确地识别,且简化模型表现更好,与实验组结果一致。  相似文献   

15.
血痕的种属鉴别在刑事技术和检验检疫等领域有重要的实践意义,拉曼光谱技术为血痕种属鉴别提供了思路。实验采集人血及猪、鸡、鸭、牛、鼠5种动物的血样并获取其拉曼光谱,采用Savitzky-Golay方法平滑降噪,airPLS方法进行基线校正,选取100~1 700 cm-1波段进行实验。训练集有600组数据,测试集有300组拉曼光谱数据。第一部分实验对比了PLS-DA,LDA,PCA+LDA,SVM和PCA+SVM等方法,测试集准确率分别为84.0%,49.3%,78%,83.0%和85.7%,验证了降维算法结合SVM分类器的有效性。第二部分采用互信息算法、遗传算法和等间隔组合三种波段选择算法,结合SVM分类器做对比实验,结果显示互信息结合SVM算法的分类准确率最优,在选择波段数为50时,测试集准确率达到86.0%。在波段选择数为300时,三种波段选择算法结合SVM分类器的准确率都达到93%左右,大幅高于传统分类方法。实验结果表明,采用波段选择算法进行光谱降维,可以有效的提高算法的准确率和鲁棒性,同时使拉曼光谱种属鉴定的可解释性更强。波段选择算法确定了血痕鉴别的关键波段位置,对设计用于执法的便携式拉曼系统也有重要意义。  相似文献   

16.
The maximum data rate that can be achieved in diffuse indoor optical wireless communication (OWC) is limited due to the effect of intersymbol interference (ISI). The adverse effect of ISI on the system performance can be minimised using a channel equaliser at the receiver. In this study, digital signal detection is formulated as a classification problem and hence a classifier is adopted at the receiver. The bit error performance of classifiers with non-linear decision boundary including a multilayer perceptron (MLP), a support vector machine (SVM), the radial basis function (RBF), and the Bayesian classifier is studied along with traditional equaliser and reported here. The MLP offers the best performance; however there is trade-off between the performance and complexity especially at highly diffuse channel.  相似文献   

17.
高光谱传感器光谱性能参数反演与反射率恢复   总被引:1,自引:0,他引:1  
Wang TX  Yan GJ  Ren HZ  Mu XH 《光谱学与光谱分析》2010,30(10):2714-2718
在轨高光谱传感器光谱性能参数的准确定标是数据定量应用的基本前提。文章在前人基础上,综合优化算法,实现了在不需要实测地表反射率的情况下,同时反演高光谱传感器中心波长与半值波宽(fullwidth at half maximum,FWHM)。基于模拟数据的研究结果显示,该方法在光谱性能参数偏移5 nm时,中心波长反演误差小于0.1 nm,FWHM误差小于0.7 nm。将该方法应用于Hyperion数据,结果显示,Hype-rion在VNIR谱段存在明显的smile效应,在整个CCD阵列范围内,其中心波长的偏移量在-2~2 nm之间,FWHM偏移在-0.2~0.5 nm之间;在SWIR谱段smile效应不明显,其中心波长偏移3 nm左右,FWHM偏移在-2~-3 nm之间。最后在光谱重定标基础上,对Hyperion进行了大气校正,反演了不受大气及定标参数影响的地表反射率。经光谱重定标,在大气吸收波段周围由光谱定标参数变化导致的反射率突变得到了抑制。  相似文献   

18.
热值是煤质特性的重要参数之一,很大程度上影响着燃煤锅炉的运行。为了克服传统检测方法所存在的问题,将激光诱导击穿光谱(LIBS)应用于燃煤热值的定量分析。煤的结构复杂,所含的元素种类众多,包括了主量元素、次量元素和痕量元素,致使煤的LIBS光谱信息复杂。如何有效提取LIBS光谱信息,实现准确的定量化测量是LIBS在煤特性检测中发挥作用的前提和基础。近年来,随着人工智能技术的发展,相关的分析技术也开始应用于煤的工业指标分析和热值预测中。为实现煤样品中LIBS光谱信息的有效提取,同时为克服常规的分析方法易出现的过渡拟合、收敛性不好等问题,提出采用结合K-fold Cross Validation(K-CV)参数优化的支持向量机(SVM)回归方法,实现LIBS定量分析煤中的热值。SVM方法是结构风险最小化的近似实现,可用于模式分类和非线性回归。为了得到有效的LIBS分析模型,实验选用44种电厂常用的热值含量不同的煤样作为实验对象,选择其中33个作为训练集,剩余11个为测试集。利用搭建的LIBS实验系统获取所选煤样品的等离子体发射光谱数据,首先分析了SVM热值回归模型的参数-惩罚因子C、核函数参数g与模型精度的关联,确定Cg最佳取值范围,然后分别建立了基于LIBS全谱和某些元素(非金属元素和金属元素)特征光谱的SVM回归模型。利用训练集光谱数据,结合K-CV法得到热值SVM回归模型的最优参数Cg的值,建立基于SVM最优参数的煤热值定量分析模型。然后将测试集的光谱数据作为输入量用于测试所建立模型的可靠性,得到分别采用全谱、非金属元素特征光谱、非金属与金属元素特征谱相结合的热值定量分析模型,其决定系数R2均达到0.99以上,均方误差分别为0.12,0.17和0.06 (MJ·kg-1)2,预测平均相对偏差分别为1.2%,1.23%和0.69%。结果表明:基于K-CV参数优化SVM回归方法可用于LIBS技术实现燃煤热值的定量分析,且可得到较高的分析精确度和准确度;同时通过对比选用不同的光谱特征的定量分析模型可知,采用非金属与金属元素的特征光谱所建立的基于K-CV参数优化SVM的热值定量模型,能够有效提高LIBS应用于快速检测煤热值的精度和准确度,实现煤热值的准确预测。  相似文献   

19.
Raman spectroscopy has the potential to significantly aid in the research and diagnosis of cancer. The information dense, complex spectra generate massive datasets in which subtle correlations may provide critical clues for biological analysis and pathological classification. Therefore, implementing advanced data mining techniques is imperative for complete, rapid and accurate spectral processing. Numerous recent studies have employed various data methods to Raman spectra for classification and biochemical analysis. Although, as Raman datasets from biological specimens are often characterized by high dimensionality and low sample numbers, many of these classification models are subject to overfitting. Furthermore, attempts to reduce dimensionality result in transformed feature spaces making the biological evaluation of significant and discriminative spectral features problematic. We have developed a novel data mining framework optimized for Raman datasets, called Fisher‐based Feature Selection Support Vector Machines (FFS‐SVM). This framework provides simultaneous supervised classification and user‐defined Fisher criterion‐based feature selection, reducing overfitting and directly yielding significant wavenumbers from the original feature space. Herein, we investigate five cancerous and non‐cancerous breast cell lines using Raman microspectroscopy and our unique FFS‐SVM framework. Our framework classification performance is then compared to several other frequently employed classification methods on four classification tasks. The four tasks were constructed by an unsupervised clustering method yielding the four different categories of cell line groupings (e.g. cancer vs non‐cancer) studied. FFS‐SVM achieves both high classification accuracies and the extraction of biologically significant features. The top ten most discriminative features are discussed in terms of cell‐type specific biological relevance. Our framework provides comprehensive cellular level characterization and could potentially lead to the discovery of cancer biomarker‐type information, which we have informally termed ‘Raman‐based spectral biomarkers’. The FFS‐SVM framework along with Raman spectroscopy will be used in future studies to investigate in‐situ dynamic biological phenomena. Copyright © 2013 John Wiley & Sons, Ltd.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号