首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
Colorectal cancer is one of the most common types of cancer, and it can have a high mortality rate if left untreated or undiagnosed. The fact that CRC becomes symptomatic at advanced stages highlights the importance of early screening. The reference screening method for CRC is colonoscopy, an invasive, time-consuming procedure that requires sedation or anesthesia and is recommended from a certain age and above. The aim of this study was to build a machine learning classifier that can distinguish cancer from non-cancer samples. For this, circulating tumor cells were enumerated using flow cytometry. Their numbers were used as a training set for building an optimized SVM classifier that was subsequently used on a blind set. The SVM classifier’s accuracy on the blind samples was found to be 90.0%, sensitivity was 80.0%, specificity was 100.0%, precision was 100.0% and AUC was 0.98. Finally, in order to test the generalizability of our method, we also compared the performances of different classifiers developed by various machine learning models, using over-sampling datasets generated by the SMOTE algorithm. The results showed that SVM achieved the best performances according to the validation accuracy metric. Overall, our results demonstrate that CTCs enumerated by flow cytometry can provide significant information, which can be used in machine learning algorithms to successfully discriminate between healthy and colorectal cancer patients. The clinical significance of this method could be the development of a simple, fast, non-invasive cancer screening tool based on blood CTC enumeration by flow cytometry and machine learning algorithms.  相似文献   

2.
血痕的种属鉴别在刑事技术和检验检疫等领域有重要的实践意义,拉曼光谱技术为血痕种属鉴别提供了思路。实验采集人血及猪、鸡、鸭、牛、鼠5种动物的血样并获取其拉曼光谱,采用Savitzky-Golay方法平滑降噪,airPLS方法进行基线校正,选取100~1 700 cm-1波段进行实验。训练集有600组数据,测试集有300组拉曼光谱数据。第一部分实验对比了PLS-DA,LDA,PCA+LDA,SVM和PCA+SVM等方法,测试集准确率分别为84.0%,49.3%,78%,83.0%和85.7%,验证了降维算法结合SVM分类器的有效性。第二部分采用互信息算法、遗传算法和等间隔组合三种波段选择算法,结合SVM分类器做对比实验,结果显示互信息结合SVM算法的分类准确率最优,在选择波段数为50时,测试集准确率达到86.0%。在波段选择数为300时,三种波段选择算法结合SVM分类器的准确率都达到93%左右,大幅高于传统分类方法。实验结果表明,采用波段选择算法进行光谱降维,可以有效的提高算法的准确率和鲁棒性,同时使拉曼光谱种属鉴定的可解释性更强。波段选择算法确定了血痕鉴别的关键波段位置,对设计用于执法的便携式拉曼系统也有重要意义。  相似文献   

3.
针对高光谱图像分类,文章提出一种基于波段子集最大噪声分量特征提取的最小二乘支持向量机的高光谱图像分类算法.利用高光谱图像的谱间相关性将原始光谱波段划分为若干个波段子集,并在各个子集上采用最大噪声分量方法进行特征提取,将提取的特征合成为分类的组合特征矢量,避免了高光谱图像较强的波段相关性,减少了谱间冗余.并且采用了最小二...  相似文献   

4.
5.
Functional magnetic resonance imaging (fMRI) is becoming a forefront brain–computer interface tool. To decipher brain patterns, fast, accurate and reliable classifier methods are needed. The support vector machine (SVM) classifier has been traditionally used. Here we argue that state-of-the-art methods from pattern recognition and machine learning, such as classifier ensembles, offer more accurate classification. This study compares 18 classification methods on a publicly available real data set due to Haxby et al. [Science 293 (2001) 2425–2430]. The data comes from a single-subject experiment, organized in 10 runs where eight classes of stimuli were presented in each run. The comparisons were carried out on voxel subsets of different sizes, selected through seven popular voxel selection methods. We found that, while SVM was robust, accurate and scalable, some classifier ensemble methods demonstrated significantly better performance. The best classifiers were found to be the random subspace ensemble of SVM classifiers, rotation forest and ensembles with random linear and random spherical oracle.  相似文献   

6.
防护林是我国荒漠绿洲区主要植被类型,可为该地区防风固沙、水盐调控、水热平衡提供有力保障,调查防护林空间分布信息十分重要。然而荒漠绿洲防护林条带较窄、斑块面积小、分布广且零散,不易大尺度准确提取。为解决此难点,以磴口县荒漠绿洲为研究区,基于GF-2号遥感影像,采用面向对象分类技术提取防护林空间分布信息。分类前,首先基于局部方差(LV)和LV变化率(ROC)曲线,选取分割防护林的最优分割尺度。然后采用随机森林(RF)算法的袋外误差率(OOB error)及基尼系数(Gini)对包含光谱、形状和纹理的分类特征进行重要性评估并筛选特征、优化模型参数;最后,基于随机森林、CART决策树、支持向量机(SVM)、K近邻(KNN)四种分类器提取防护林空间分布信息并对比验证。结果表明:(1)采用ROC-LV曲线方法相比于遍历分割参数,可更客观更高效地筛选最优分割参数的可能值;(2)基于RF算法计算的袋外误分率和基尼系数可以有效筛除冗余特征,配合分类器参数优化,在保证分类精度的同时,有效提高分类器性能,大幅提升数据处理速度;(3)基于实测数据集对分类结果进行验证,结果显示基于随机森林算法的特征优化结合SVM分类器提取的防护林空间分布信息精度最高,生产者精度达到97.14%,总体防护林面积为208.99 km2,与实际210 km2接近,在小区块中,SVM分类器的分类效果优于其他三种分类器;(4)因GF-2影像分辨率高,并且含有近红外波段,通过波段合成得到亚米级信息,故基于面向对象的方法能够以单条林带为基本单位研究防护林林网属性,例如提取断带信息等林网结构特征。研究结论可为荒漠绿洲区带状防护林提取提供重要技术支撑。  相似文献   

7.
恒星光谱自动分类是研究恒星光谱的基础内容,快速、准确自动识别、分类恒星光谱可提高搜寻特殊天体速度,对天文学研究有重大意义。目前我国大型巡天项目LAMOST每年发布数百万条光谱数据,对海量恒星光谱进行快速、准确自动识别与分类研究已成为天文学大数据分析与处理领域的研究热点之一。针对恒星光谱自动分类问题,提出一种基于卷积神经网络(CNN)的K和F型恒星光谱分类方法,并与支持向量机(SVM)、误差反向传播算法(BP)对比,采用交叉验证方法验证分类器性能。与传统方法相比CNN具有权值共享,减少模型学习参数;可直接对训练数据自动进行特征提取等优点。实验采用Tensorflow深度学习框架,Python3.5编程环境。K和F恒星光谱数据集采用国家天文台提供的LAMOST DR3数据。截取每条光谱波长范围为3 500~7 500 部分,对光谱均匀采样生成数据集样本,采用min-max归一化方法对数据集样本进行归一化处理。CNN结构包括:输入层,卷积层C1,池化层S1,卷积层C2,池化层S2,卷积层C3,池化层S3,全连接层,输出层。输入层为一批K和F型恒星光谱相同的3 700个波长点处流量值。C1层设有10个大小为1×3步长为1的卷积核。S1层采用最大池化方法,采样窗口大小为1×2,无重叠采样,生成10张特征图,与C1层特征图数量相同,大小为C1层特征图的二分之一。C2层设有20个大小为1×2步长为1的卷积核,输出20张特征图。S2层对C2层20张特征图下采样输出20张特征图。C3层设有30个大小为1×3步长为1的卷积核,输出30张特征图。S3层对C3层30张特征图下采样输出30张特征图。全连接层神经元个数设置为50,每个神经元都与S3层的所有神经元连接。输出层神经元个数设置为2,输出分类结果。卷积层激活函数采用ReLU函数,输出层激活函数采用softmax函数。对比算法SVM类型为C-SVC,核函数采用径向基函数,BP算法设有3个隐藏层,每个隐藏层设有20,40和20个神经元。数据集分为训练数据和测试数据,将训练数据的40%,60%,80%和100%作为5个训练集,测试数据作为测试集。分别将5个训练集放入模型中训练,共迭代8 000次,每次训练好的模型用测试集进行验证。对比实验采用100%的训练数据作为训练集,测试数据作为测试集。采用精确率、召回率、F-score、准确率四个评价指标评价模型性能,对实验结果进行详细分析。分析结果表明CNN算法可对K和F型恒星光谱快速自动分类和筛选,训练集数据量越大,模型泛化能力越强,分类准确率越高。对比实验结果表明采用CNN算法对K和F型恒星光谱自动分类较传统机器学习SVM和BP算法自动分类准确率更高。  相似文献   

8.
基于小波降噪与支持向量机的恒星光谱识别研究   总被引:2,自引:2,他引:0  
提出了一种对恒星光谱识别的新方法。 根据恒星光谱数据的特性,我们以支持向量机为核心技术构建光谱识别器。 由于恒星光谱数据通常含有较高的噪声,如果直接进行分类,识别率往往较低。 因此作者首先采用小波分析的方法对原始光谱数据进行降噪预处理,提取光谱的特征,然后馈送到支持向量机完成对光谱数据的最终识别。 利用实际光谱数据(Jacoby, 1984)对所提出的技术进行检测,实验结果表明使用这种小波分析结合支持向量机的技术的识别效果要优于使用支持向量机结合主分量分析降维技术的识别方法。 另外,作者还比较了支持向量机与传统甄别分析的分类性能,对实际及合成光谱进行实验的结果显示了支持向量机的识别正确率不但优于常见的5种甄别分析方法的识别率,而且有较强的泛化能力。  相似文献   

9.
稀疏降噪自编码算法用于近红外光谱鉴别真假药的研究   总被引:1,自引:0,他引:1  
近红外光谱分析技术作为一种快速、无损检测技术十分适用于真假药品现场鉴别。自编码网络作为当前机器学习领域研究的热点受到广泛关注,自编码网络是一种典型的深度学习网络模型,它比传统的潜层学习方法具有更强的模型表示能力。自编码网络使用贪婪逐层预训练算法,通过最小化各层网络的重构误差,依次训练网络的每一层,进而训练整个网络。通过对数据进行白化预处理并使用无监督算法对输入数据进行逐层重构,使网络更有效的学习到数据的内部结构特征。之后使用带标签数据通过监督学习算法对整个网络进行调优。首先对真假琥乙红霉素片的近红外光谱数据进行预处理以及白化预处理,通过白化处理降低数据特征之间的相关性,使数据各特征具有相同的方差。数据处理之后利用稀疏降噪自编码网络针对真假药品光谱数据建立分类模型,并将稀疏降噪自编码网络模型与BP神经网络以及SVM算法在分类准确率及算法稳定性方面进行对比。结果表明对光谱数据进行白化预处理能有效提升稀疏降噪自编码网络的分类准确率。并且自编码网络分类准确率在不同训练样本数量下均高于BP神经网络,SVM算法在少量训练样本的情况下更有优势,但在训练数据集样本数达到一定数量后,自编码网络的分类准确率将优于SVM算法。在算法稳定性方面,自编码网络较之BP神经网络和SVM算法也更稳定。使用稀疏降噪自编码网络对真假药品近红外光谱数据进行建模,能对真假药品进行有效的鉴别。  相似文献   

10.
This paper proposes a new phishing webpage detection approach based on a kind of semi-supervised learning method-transductive support vector machine (TSVM). Firstly the features of web image are extracted for complementing the disadvantage of phishing detection only based on document object model (DOM); they include gray histogram, color histogram, and spatial relationship between subgraphs. Then the features of sensitive information are examined by using page analysis based on DOM objects. In contrast to the drawback of support vector machine (SVM) algorithm which simply trains classifier by learning little and poor representative labeled samples, this method introduces the TSVM to train classifier that it takes into account the distribution information implicitly embodied in the large quantity of the unlabeled samples, and have better performance than SVM. The experimental results show that the proposed method not only achieves better classification accuracy, but also has strong applicability as the independent method of phishing detection.  相似文献   

11.
针对室内复杂环境下火灾识别准确率会降低的问题,提出了一种改进的粒子群算法优化支持向量机参数进行火灾火焰识别的方法。首先在 颜色空间进行火焰图像分割,对获得的火焰图像进行预处理并提取相关特征量;其次采用PSO算法搜索SVM的最优核参数和惩罚因子,并在PSO算法中加入变异操作和非线性动态调整惯性权值的方法,加快了搜索SVM最优参数的精度和速度;然后将提取的火焰各个特征量作为训练样本输入SVM模型进行训练,并建立参数优化后的SVM分类器模型;最后将待测试样本输入SVM模型进行分类识别。算法的火灾识别准确率达到94.09%,分类效果明显优于其他分类算法。仿真结果表明,改进的PSO优化SVM算法提高了火焰识别的准确率和实时性,算法的自适应性更强,误判率更低。  相似文献   

12.
基于正交投影散度的高光谱遥感波段选择算法   总被引:2,自引:0,他引:2  
由于高光谱数据的海量高维特征,对其进行降维处理成为高光谱遥感研究的一个重要问题.波段选择算法由于能够有效地保留原始数据的信息,在高光谱数据降维及后续的遥感识别与分类等方面具有明显的优越性.文章提出了一种基于正交投影散度(OPD)的波段选择方法,该方法继承了正交子空间投影(OSP)算法的特点,通过把原始数据投影到特征空间...  相似文献   

13.
基于高光谱图像技术的苹果粉质化LLE-SVM分类   总被引:3,自引:0,他引:3  
苹果粉质化程度是衡量其内部品质的一个重要因素,采用了高光谱散射图像技术进行苹果粉质化的无损检测。针对高光谱散射图像数据量大的特点,提出了局部线性嵌入(local linear embedded,LLE)和支持向量机(support vector machine,SVM)相结合的用于检测苹果粉质化的新分类方法。LLE是一种通过局部线性关系的联合来揭示全局非线性结构的非线性降维方法,能有效计算高维输入数据在低维空间的嵌入流形。对降维后的高光谱数据采用SVM进行分类。将LLE-SVM分类方法与传统的SVM分类方法比较,仿真结果表明,对高光谱数据而言,用LLE-SVM得到的训练精度高于单纯使用SVM的训练精度;降维前后,分类器的测试精度变化不大,波动范围不超过5%。LLE-SVM为高光谱散射图像技术进行苹果粉质化无损检测提供了一个有效的分类方法。  相似文献   

14.
According to the principle of support vector machine (SVM) and the inter-class separability rule of hyperspectral data, a novel binary tree SVM classifier based on separability measure among different classes is proposed for hyperspectral image classification. J–M distance is used to measure the separability in order to generate the binary tree automatically. By experiments using airborne operational modular imaging spectrometer II (OMIS II) data, satellite EO-1 Hyperion hyperspectral data and airborne AVIRIS data, the classification accuracy of different multi-class SVMs is obtained and compared. Experimental results indicate that the proposed adaptive binary tree classifier outperforms other existing multi-class SVM strategies. Use of the adaptive binary tree SVM classifier is a novel approach to improve the accuracy of hyperspectral image classification and expand the possibilities for interpretation and application of hyperspectral remote sensing image.  相似文献   

15.
基于克隆选择支持向量机高光谱遥感影像分类技术   总被引:2,自引:0,他引:2  
作为支持向量机(support vector machine, SVM)高光谱影像分类的一个重要环节,参数设置的效率和精度直接影响到SVM模型训练效率和最终分类精度。本文首先建立一个SVM高光谱影像分类器,提出了利用免疫克隆选择算法优化的交叉验证进行核函数参数和惩罚因子C的优化选择的方法,得到了一种基于克隆选择优化的支持向量机(clonal selection SVM, CSSVM)高光谱影像分类器。然后将CSSVM与传统的基于网格搜索交叉验证的支持向量机(gird search SVM, GSSVM)分类器进行了对比评价,评价指标包括模型训练时间和分类精度等。最后基于AVIRIS高光谱遥感影像进行了两算法分类对比试验,结果表明:提出的CSSVM测试样本总分类精度超过85.1%和Kappa系数超过0.821 3,影像总分类精度超过81.58%和Kappa系数超过0.772 8,CSSVM与GSSVM的分类精度差别在0.08%以内,Kappa系数差别在0.001以内;CSSVM的模型训练时间是GSSVM的1/6至1/10,得到显著缩短;CSSVM方法在保持传统GSSVM优良分类精度的基础上,极大提高了模型的训练效率。  相似文献   

16.
In the present article we propose the application of variants of the mutual information function as characteristic fingerprints of biomolecular sequences for classification analysis. In particular, we consider the resolved mutual information functions based on Shannon-, Rényi-, and Tsallis-entropy. In combination with interpretable machine learning classifier models based on generalized learning vector quantization, a powerful methodology for sequence classification is achieved which allows substantial knowledge extraction in addition to the high classification ability due to the model-inherent robustness. Any potential (slightly) inferior performance of the used classifier is compensated by the additional knowledge provided by interpretable models. This knowledge may assist the user in the analysis and understanding of the used data and considered task. After theoretical justification of the concepts, we demonstrate the approach for various example data sets covering different areas in biomolecular sequence analysis.  相似文献   

17.
针对结构化道路检测中基于单一特征的检测易受影响,非结构化道路检测算法对多种类型的非标准道路缺乏适应性的问题,分别提出了一种基于D-S证据理论的多视觉特征融合的车道线检测方法和一种基于增量模糊支持向量机(IFSVM)的非结构化道路在线学习检测方法。选取梯度幅度等检测算子分别设计基本概率分配函数,根据建立的分段线性道路模型进行求解,FSVM分类器通过从前先的检测结果中学习,在耗费少量计算时间与内存空间的情况下,不断再训练以增强分类器的性能。实验结果表明,该算法比单纯利用图像的边缘或颜色等特征进行道路检测具有更高的可靠性,对复杂环境下的道路检测具有较强的鲁棒性和较强的抗干扰能力。  相似文献   

18.
Dynamic contrast-enhanced magnetic resonance imaging (DCE-MRI) can estimate parameters relating to blood flow and tissue volume fractions and therefore may be used to characterize the response of breast tumors to treatment. To assess treatment response, values of these DCE-MRI parameters are observed at different time points during the course of treatment. We propose a method whereby DCE-MRI data sets obtained in separate imaging sessions can be co-registered to a common image space, thereby retaining spatial information so that serial DCE-MRI parameter maps can be compared on a voxel-by-voxel basis. In performing inter-session breast registration, one must account for patient repositioning and breast deformation, as well as changes in tumor shape and volume relative to other imaging sessions. One challenge is to optimally register the normal tissues while simultaneously preventing tumor distortion. We accomplish this by extending the adaptive bases algorithm through adding a tumor-volume preserving constraint in the cost function. We also propose a novel method to generate the simulated breast magnetic resonance (MR) images, which can be used to evaluate the proposed registration algorithm quantitatively. The proposed nonrigid registration algorithm is applied to both simulated and real longitudinal 3D high resolution MR images and the obtained transformations are then applied to lower resolution physiological parameter maps obtained via DCE-MRI. The registration results demonstrate the proposed algorithm can successfully register breast MR images acquired at different time points and allow for analysis of the registered parameter maps.  相似文献   

19.
使用激光共聚焦拉曼光谱仪测量正常大鼠红细胞、正常人红细胞、糖尿病STZ造模大鼠红细胞、糖尿病四氧嘧啶造模大鼠红细胞和人Ⅱ型糖尿病红细胞的拉曼光谱,应用主成分分析(principal component analysis,PCA)结合支持向量机(support vector machines,SVM)分类器对数据进行判别分析,然后采用类间距离判断两种造模方法与人Ⅱ型糖尿病的接近程度。结果发现糖尿病红细胞与正常红细胞的拉曼光谱存在明显差异,糖尿病在酰胺 ⅥCO变形振动谱带处峰高显著,并在酰胺ⅤN—H变形振动谱带处谱线出现偏移,属于磷脂的脂酰基C—C骨架1 130 cm-1谱线增强,1 088 cm-1谱线强度减弱,说明糖尿病红细胞膜的通透性增强。PCA结合SVM可以很好地区分以上5类红细胞的拉曼光谱,分类器测试结果表明分类准确度达100%。通过分别计算两种造模方法与人Ⅱ型糖尿病的类间距离,发现STZ造模法更接近人Ⅱ型糖尿病。由此得出结论:拉曼光谱法可以用于糖尿病诊断,大鼠糖尿病STZ造模法更接近人类Ⅱ型糖尿病。  相似文献   

20.
由于近红外光谱在药品鉴别应用中具有分析速度快、样品无损、可现场检测等突出优点,目前已在众多领域中广泛应用。但近红外光谱存在信噪比低,吸收强度弱且谱峰重叠等缺点,无法从光谱中直接得到定性/定量的物质信息,因而近红外光谱分析技术常作为一种间接分析技术,并且光谱的化学计量学建模方法成为近红外光谱分析的核心内容。深度学习是机器学习的一个新的分支,并已经成功运用于多个领域。深度学习的网络结构和非线性的激活能力,使其模型特别适合高维、非线性的大规模数据建模。为进一步丰富近红外光谱建模方法,并提高近红外光谱分析技术的回归精度或分类准确率,将深度学习方法应用于近红外光谱分析,发展新的建模方法十分必要。面向近红外光谱定性分析技术,提出一种基于堆栈压缩自编码网络(SCAE)光谱定性分析方法,并应用于多类别药品的光谱分析,以区分或鉴别不同厂家生产的同种药品。压缩自编码网络(CAE)以自编码网络(AE)为基础,进一步加入雅克比矩阵作为约束项。自编码网络最初是用实现数据降维,以学习数据内部特征,而雅克比矩阵包含数据在各个方向上的信息,将其作为AE的约束项则可使提取到的特征对输入数据在一定程度下的扰动具有不变性,从而提高AE提取特征的能力。SCAE是一种由多层CAE构成的神经网络。前一层CAE的隐藏层作为后一层CAE的输入层,网络的全部参数是通过采用逐层贪婪的训练方式来获取的,训练结束后将所有网络视为一个整体,通过反向传播算法进行微调,最后使用Logistic/Softmax分类器进行定性分析。实验数据均为中国食品药品检定研究院采集,以头孢克肟胶囊作为二分类实验数据,硝酸异山梨酯片作为多分类实验数据。通过Bruker Matrix光谱仪测定每个样本在不同波长下的吸光度值得到其光谱曲线,再通过OPUS软件消除漂移等因素对光谱样本之间产生的偏差。接下来通过实验确定约束项雅克比矩阵的系数λ为0.003之后建立模型。建模过程分为五个阶段,分别为: 预处理阶段,预训练阶段,微调阶段,测试阶段和对比阶段。为了验证SCAE在分类准确性、算法稳定性和建模时间等方面的性能,与BP神经网络、SVM算法、稀疏自编码(SAE)和降噪自编码(DAE)开展对比实验研究。分类准确性方面,在不同的训练集与测试集的比例下,SCAE均有最佳的分类准确性与算法稳定性。建模时间方面,由于SVM算法不需要预训练和特征提取,所以运行时间方面比其他算法有大的优势,但是SCAE建模速度优于除SVM之外的其他对比算法。综合而言,使用SCAE进行药品鉴别有效可行。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号