首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
针对目前本体构建与重构过程中数据处理效率低的问题,运用支持向量机分类及K-均值聚类的方法对本体构建数据进行处理,从文本数据中抽取关注的特定的信息,运用基于二叉树的多分类支持向量机以及支持向量机与K-均值融合的多样本聚类,总结基于分类与聚类的本体构建过程,并以离散型和连续型两种数据样本验证了方法的可行性。实验结果表明,基于数据挖掘的本体构建与重构技术具有良好的应用效果。  相似文献   

2.
基于K-均值聚类与夹角余弦法的多光谱分类算法   总被引:1,自引:0,他引:1  
近年来对高光谱与多光谱进行分类去混的研究方法很多,K-均值聚类算法与光谱相似度计算算法都属于成熟的分类算法.作者在对其研究基础上,将K-均值算法进行改进,并融入光谱相似度匹配算法,形成一种新的光谱分类算法,找出两条距离最远的光谱作为参考光谱,用欧氏距离法或夹角余弦法对数据立方体进行分类,并且从数据立方体中删除属于这两条谱线的其余谱线,同时找出与两条参考光谱距离最远或者夹角最大者作为第三条参考光谱,对剩余数据立方体进行新的分类,并在此算法上用多光谱数据立方体进行了试验验证.通过ENVI用K-均值(K-means)进行分类,与改进的K-means算法和夹角余弦法Matlab仿真结果进行比较,后两种对于两种气泡的分类效果都很好,对背景的分类改进的K-means算法效果较好,尤其是欧氏距离法能将背景完整地分离出来.  相似文献   

3.
基于谱聚类与类间可分性因子的高光谱波段选择   总被引:1,自引:0,他引:1  
随着遥感技术和成像光谱仪的发展,高光谱遥感图像的分辨率不断提高,其庞大的数据量在提高其遥感探测能力的同时,也给分析和处理带来了很大的困难。高光谱波段选择可以有效减少数据冗余,提高分类识别精度和处理效率。因此如何从多达数百个波段的高光谱图像中选择出具有较好分类识别能力的波段组合是亟待解决的问题。针对上述问题,采用基于图论的谱聚类算法,将原始高光谱图像中的波段作为待聚类的数据点,利用互信息描述两两波段间的相似度,生成相似度矩阵。再根据图谱划分理论,将相似度矩阵生成的非规范化图拉普拉斯矩阵进行谱分解,得到类间相似度小且类内相似度大的类簇;然后根据地物类型计算各波段的类间可分性因子,将其作为类簇内进一步选择代表性波段的参考指标,达到降维的目的;最后通过支持向量机与最小距离分类方法对波段选择后的图像分类。该方法区别于传统的无监督聚类方法,采用基于图论的谱聚类算法,并根据先验知识计算类间可分性因子来选择波段。通过与自适应波段选择算法和基于自动子空间划分的波段指数算法的对比实验,结果表明:两组实验当聚类数目达到相对最佳时,该波段选择方法支持向量机图像总分类精度达到94.08%和94.24%以上,最小距离分类图像总分类精度达到87.98%和89.09%以上,有效保留了光谱信息,提高了分类精度。  相似文献   

4.
为了提高入侵检测模型的准确率,提出一种基于K-均值算法、朴素贝叶斯分类算法和反向传播神经网络的混合入侵检测模型。首先,采用基于分区、无监督式聚类分析的K-均值算法进行数据的聚类处理,得到易于被机器处理和学习的数据集。为了进一步获取必要的数据属性,将聚类处理的结果输入到贝叶斯分类器进行分类。然后,具有较短学习周期的反向传播神经网络负责训练数据分类样本。最后,基于KDD CUP99数据集,对混合入侵检测模型进行了仿真实验,实验结果表明,通过混合入侵检测模型,DoS、U2R、R2L和Probe等入侵数据被精准地检测出。相比其它入侵检测模型,混合入侵检测模型取得了较高的准确率和召回率,以及较低的误报率,具有一定的实用价值。  相似文献   

5.
周双  冯勇  吴文渊  汪维华 《物理学报》2016,65(2):20502-020502
在小数据量计算最大Lyapunov指数的过程中,为了减少人为因素识别线性区域带来的误差,提出一种基于模糊C均值聚类的新方法.该方法根据平均发散程度指数曲线的变化特征,利用分类算法进行识别.首先,利用小数据量算法对混沌时间序列进行计算得到平均发散程度指数集合;其次,利用模糊C均值聚类算法对平均发散程度指数集合进行分类,得到不饱和数据;然后,对不饱和的二阶差分数据进行分类,得到零附近波动数据并剔除粗大误差,再对保留的有效数据利用统计方法识别出线性区域;最后,对线性区域进行最小二乘法拟合得到最大Lyapunov指数.为了验证该算法的有效性,对著名Logistic和Hénon混沌系统进行了仿真,所得结果接近理论值.实验表明,所提出的新方法与主观识别方法比较,计算结果更加准确.  相似文献   

6.
周双  冯勇  吴文渊 《物理学报》2015,64(13):130504-130504
在计算关联维数过程中, 为了减少人为因素识别无标度区间带来的误差, 提出一种基于模拟退火遗传模糊C均值聚类识别无标度区间的新方法. 该方法根据无标度区间对应曲线的二阶导数在零附近波动的变化特征, 利用分类算法进行识别. 首先对双对数关联积分的离散数据进行二阶差分; 然后利用模拟退火遗传模糊C均值聚类方法对该数据进行分类, 选出在零附近波动的数据; 再剔除粗大误差保留有效数据; 最后进行统计分析识别出线性度最好的作为无标度区间. 应用新方法对两个著名的混沌系统Lorenz 和Henon 进行了仿真, 计算结果与理论值非常符合. 实验表明, 所提出的新方法与主观识别、K-means和2-means方法比较, 可以有效自动识别无标度区间, 减少误差, 计算结果更加精确.  相似文献   

7.
天体光谱包含着许多重要的关于天体的物理和化学信息,如天体表面的有效温度、重力加速度以及化学丰度等,天体光谱的处理和分析对天文研究具有重要的科学意义。一些大型巡天计划的实施(如SDSS,LAMOST等)使我们获得了海量的天文光谱数据,因此天文光谱数据的自动分类成为重要的科学研究课题,然而面对如此海量的光谱数据,一些传统的光谱自动分类方法已经不适用,迫切需要寻找高效率的光谱自动分类技术。研究了基于局部均值的K-近质心近邻(local mean-based K-nearest centroid neighbor,LMKNCN)算法在恒星(Star)、星系(Galaxy)和类星体(Quasar,QSO)的光谱分类中的应用。LMKNCN算法的基本思想是根据近质心近邻原则,从每一类训练样本集中为待测样本点选取k个近质心近邻点,然后根据每一类中所选取的k个近质心近邻点的均值点到待测样本点x的距离来判别x的所属类别。针对美国SDSS-DR8的天体光谱数据,对比了K-近邻、K-近质心近邻、LMKNCN三种算法在恒星、星系和类星体的光谱分类中所表现的性能,结果表明三种方法中,LMKNCN算法对这三种光谱的识别率高于其他两种算法或者与其相当,而且其平均分类正确率高于另外两种算法,特别是在类星体的识别率上表现的更好。表明了该算法对天文光谱大数据的快速处理和有效利用具有重要的意义。  相似文献   

8.
分子动力学(MD)模拟可以很好地用于揭示蛋白质等生物大分子体系在原子尺度的结构及功能的关系.分子动力学模拟通常产生海量的描述分子在模拟中运动的数据,包含很多模拟轨迹以及随时间演化的各个原子的坐标和速度等.为了从这些海量数据中获得体系的分子机制,需要发展并利用聚类算法来将这些海量数据进行归类,聚类算法通常将具有某些相似度的构象聚成一类,这些相似度可以分为两类,几何相似度以及动力学相似度.对应地,用于分析分子动力学模拟的聚类算法通常可以分为两大类:几何聚类及动力学聚类.本文列举了一系列常用的用于分子动力学模拟的聚类算法包括分裂算法,凝聚算法(单连锁,完全连锁,平均连锁,质心连锁以及Ward连锁),中心算法(K-Means,KMedoids,K-Centers及APM),密度算法(邻居算法,DBSCAN,密度-峰及Robust-DB算法),谱算法(PCCA, PCCA+)等.本文讨论了几何分类和动力学分类的不同点以及不同算法的性能.另外注意到并不存在某一个适用于所有MD数据的聚类算法.对于某个特定体系,选择一个合适的聚类算法取决于聚类的目的,MD构象系综的内在性质等.因此,本文的一个要点也在于介绍每个聚类算法的优缺点.期望通过本文,能够指导读者在MD模拟中选择一个合适的聚类算法.  相似文献   

9.
马莉莉  刘江平 《应用光学》2020,41(6):1305-1310
为了提高光纤通信网络中异常数据的识别能力,提出了基于熵目标函数最优化的异常数据检测算法。首先,对数据样本进行属性分类,依据异常数据特征密度指标完成邻域区间半径的选取;其次,通过对高阶统计量的大数据聚类度循环迭代,完成特征提取参数的优化;最后,由样本属性概率计算熵目标函数的最优值,并利用最优值完成异常数据检测。实验对1 000组通信数据进行测试,结果显示,该算法的检测精度均值约为95.7%,其数据融合率、检测耗时与平均误检率均优于2种传统方法。该算法具有精度高、收敛快、误检率低的优势,具有一定的应用价值。  相似文献   

10.
陈国群  付冬梅 《应用光学》2007,28(2):142-145
根据红外灰度图像的特点,提出了一种基于K-均值聚类的图像增强的新算法。该算法首先根据具体图像确定K值,其次对红外图像的辐射温度数据进行统计学习,把不同温度值按升序排列,然后按等差原则选取温度值作为初始聚类中心,再依据初始聚类中心采用K-均值聚类算法对温度进行聚类,最后由聚类结果对图像进行自适应增强。通过对红外灰度图像进行实验,得到了满意的结果: 对比直方图均衡,具有更丰富的图像细节信息和层次感,视觉效果更好。  相似文献   

11.
The main influencing factors of the clustering effect of the k-means algorithm are the selection of the initial clustering center and the distance measurement between the sample points. The traditional k-mean algorithm uses Euclidean distance to measure the distance between sample points, thus it suffers from low differentiation of attributes between sample points and is prone to local optimal solutions. For this feature, this paper proposes an improved k-means algorithm based on evidence distance. Firstly, the attribute values of sample points are modelled as the basic probability assignment (BPA) of sample points. Then, the traditional Euclidean distance is replaced by the evidence distance for measuring the distance between sample points, and finally k-means clustering is carried out using UCI data. Experimental comparisons are made with the traditional k-means algorithm, the k-means algorithm based on the aggregation distance parameter, and the Gaussian mixture model. The experimental results show that the improved k-means algorithm based on evidence distance proposed in this paper has a better clustering effect and the convergence of the algorithm is also better.  相似文献   

12.
针对传统的K均值聚类算法在机械故障检测的过程中,由于对于K值的选择具有较强的主观性,最后极易得到局部最优解,而非全局最优解,降低了机械故障检测的准确性。提出一种改进K均值聚类的机械故障智能检测方法。将K均值聚类算法与粒子群算法相结合,在迭代处理的过程中,结合K均值进行优化,即将粒子群算法中的子代个体利用K均值聚类进行运算获取局部最优解,并使用这些个体继续参与迭代处理,这样能够提高算法的收敛速度,避免陷入局部最优解,获得准确的机械故障信号特征。实验结果表明,利用K均值倾斜特征提取的机械故障智能检测算法进行机械故障检测,能够有效提高故障检测的准确性,取得了令人满意的效果。  相似文献   

13.
植物油市场中出售的芝麻油、玉米油和花生油有多种品牌,不同品牌间价格差距较大,且存在假冒的现象,利用荧光光谱技术可以无损地鉴别购买油种是否为标签所标种类。主成分分析方法及平行因子方法可对这3种油种进行人工分类,但其存在类间距离相比于类内距离过小的不足,在结合传统的聚类分析方法时,会造成误分类现象。本文以提高类间距离、达到正确聚类为目标,经过比较分析,选择均值、标准差、光谱重心坐标、二阶混合中心距、相关系数、等价椭圆二倍倾角正切值、在重心激发波长处的发射光谱的偏度系数和峰度系数作为统计参数,相比于直接使用聚类方法,芝麻油分类的正确率从92.3%提高到100%,玉米油分类的正确率从75%提高到100%,花生油从57.1%提高到100%。用偏最小二乘判别分析方法验证了本文方法的合理性。本文方法可以用于植物油检测仪器的自动分类,利于市场监管及指导人们日常消费。  相似文献   

14.
Grouping the objects based on their similarities is an important common task in machine learning applications. Many clustering methods have been developed, among them k-means based clustering methods have been broadly used and several extensions have been developed to improve the original k-means clustering method such as k-means ++ and kernel k-means. K-means is a linear clustering method; that is, it divides the objects into linearly separable groups, while kernel k-means is a non-linear technique. Kernel k-means projects the elements to a higher dimensional feature space using a kernel function, and then groups them. Different kernel functions may not perform similarly in clustering of a data set and, in turn, choosing the right kernel for an application could be challenging. In our previous work, we introduced a weighted majority voting method for clustering based on normalized mutual information (NMI). NMI is a supervised method where the true labels for a training set are required to calculate NMI. In this study, we extend our previous work of aggregating the clustering results to develop an unsupervised weighting function where a training set is not available. The proposed weighting function here is based on Silhouette index, as an unsupervised criterion. As a result, a training set is not required to calculate Silhouette index. This makes our new method more sensible in terms of clustering concept.  相似文献   

15.
余国清  周兰蓉 《应用声学》2017,25(8):272-274, 314
为降低大数据云中心的能量消耗和实现资源的优化配置,提出一种虚拟机资源高效分配策略。 提出的策略对选定的特征上具备相似性任务分组的聚类进行定义,将各组任务映射到定制化的高效虚拟机类型。其高效指的是以最低限度的资源损耗成功执行任务。虚拟机的相关参数为核数量、内存量和存储量。虚拟机分配基于日志中提取的历史数据,并以任务的使用模式为基础。提出的资源分配策略以任务的实际资源使用量为基础,实现了能源消耗的降低。实验结果表明:不同聚类任务下,提出的虚拟机资源分配策略可以大幅节约能源消耗,具有较低的平均任务拒绝次数。  相似文献   

16.
随着天文大数据时代计算科学的蓬勃发展,我国具备自主知识产权的国际天文界口径最大、光谱获取率最高的大视场望远镜LAMOST,已率先在国际上开拓并实现了同时观测几千个天体光谱的大规模巡天工作。自2011年巡天至2015年6月所获得的DR3光谱数据集目前已获取世界上最大的恒星参数星表。针对LAMOST第三期发布FGK恒星光谱的流量定标等相关数据,利用Kurucz模板光谱对应的参数空间划分网格,基于开源高效的数据处理R语言程序软件平台,设计了有监督的聚类中心,便于验证其理论参数网格的差异。处理LAMOST实测光谱经归一化后,选择距离量直接描述属性,采用欧氏距离分析判别光谱之间的相似度,选取相应的属性向量构造函数判断观测光谱和理论光谱差别的量级。实验表明:比对LAMOST实测FGK型恒星光谱数据与Kurucz理论模板库数据一致性以及参数测量的准确性,结果显示相同参数的光谱间特征谱线具有较好的一致性,从而得出LAMOST光谱测量物理参数质量较高,具备极好的可靠性,为后续恒星大气模型的改进提供相应的论证依据。  相似文献   

17.
The existing lossy compression algorithms play an important role in reducing the cost of storage equipment and bandwidth for hyperspectral (HS) application. However, none of the lossy compression algorithms considers the real-time classification of HS data. In this paper, we present a new lossy compression method for HS data that aims to optimally compress in both spatial and spectral domains and simultaneously maximize classification performance. For this target, Harsanyi–Farrand–Chang (HFC) and k-means++?algorithms are applied to achieve a spectral library and an index matrix for HS image. Spectral angle mapping and Euclidean distance are used to update the spectral library and the index matrix. The experiment results indicate that the proposed method has a good classification performance. The results also reveal that the proposed method works well in real-time classification and compression of HS data with a large volume and achieves a high compression ratio. It is noteworthy to mention that the superiority of our method in compression becomes more apparent as the volume of HS data grows. Consequently, the proposed method has a strong advantage in HS applications that require both compression and classification.  相似文献   

18.
刘福才  张彦柳  陈超 《物理学报》2008,57(5):2784-2790
采用一种基于鲁棒模糊聚类算法的模糊辨识方法,通过引入局部划分关联度因子,增强了系统辨识的抗干扰能力,提高了系统辨识的鲁棒性.首先用最近邻模糊聚类法划分初始输入空间,得到模糊规则数及初始聚类中心;然后用鲁棒模糊聚类算法求解并优化模糊隶属度和聚类中心,建立高精度的T-S模糊模型;最后利用最小二乘法辨识模型的初始结论参数,进一步利用带遗忘因子的递推最小二乘法优化结论参数.采用该方法对Mackey-Glass混沌时间序列进行建模和预测,仿真结果表明利用本方法可以进行准确建模和预测,验证了本方法的鲁棒性、有效性和实 关键词: 最近邻模糊聚类 鲁棒模糊聚类 混沌时间序列 最小二乘法  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号