首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
确定分类数成为聚类分析中的主要问题之一.针对该问题,文章提出了一种新的聚类分析方法即自然聚类法.首先,给出了一个新的类的定义.按该定义聚类,类和类的个数是确定的.相应地,设计了自然聚类的算法.最后通过模拟研究和两个实例分析了所提出方法的有效性.  相似文献   

2.
针对不平衡数据集分类问题,提出了一种基于聚类的欠采样方法.分别取不同的聚类个数,对训练集中的多数类样本进行若干次聚类,然后用聚类中心作为多数类样本,与少数类样本构成若干个新的训练集,之后用这些训练集训练分类器,剔除具有错误分类倾向的分类器,最后对分类结果进行投票.仿真实验对几种欠采样方法进行比较.实验采用16个平衡率不一的数据集进行测试.理论分析与实验结果表明:提出的基于聚类的欠采样方法能有效地改善不平衡数据集的不平衡性.  相似文献   

3.
一种改进的遗传k-means聚类算法   总被引:8,自引:0,他引:8  
在经典的k-means聚类算法中,聚类数k必须事先给定,然而在现实中k很难被精确的确定.本文提出了一种改进的遗传k-means聚类算法,并构造了一个用来评价分类程度好坏的适应度函数,该适应度函数考虑的是在提高紧凑度(类内距)和分离度(类间距)的同时使得分类个数尽可能少.最后采用两个人工数据集和三个UCI数据集对k-means聚类算法(KM),遗传聚类算法(GA),遗传k-means聚类算法(GKM)和改进的遗传k-means聚类算法(IGKM)进行比较研究,比较的指标有类间距、类内距和分类正确率.研究证明改进的遗传k-means算法能够自动获取最佳聚类数k并且保持较高的正确率.  相似文献   

4.
土壤是一个多性状的连续体,其分类的首选方法是模糊聚类分析.但是模糊聚类分析中现有的基于模糊等价关系的动态聚类法和模糊c-均值法各有利弊,采用其中一种方法聚类肯定存在不足.为此集成两种聚类方法的优点,避其缺点,提出了用基于模糊等价关系的动态聚类方法和方差分析方法确定聚类数目和初始聚类中心,再用模糊c-均值法决定最终分类结果的集成算法,并将其应用到松花江流域土壤分类中,得到了较为切合实际的分类结果.  相似文献   

5.
K-means算法是一种非常重要的聚类算法,然而算法的聚类效果受簇的个数、初始中心点位置的影响很大.提出基于优化初始中心集合和中心移动算法tNN-MEANS,算法有效解决了以下三个问题:1)准确确定大规模数据集中簇的个数;2)精确确定全局高密度的核心区域;3)克服了簇中存在多个高密度区域的问题.运用UCI数据集分别对X-means算法、DBSCAN算法和tNN-MEANS算法进行对比实验,实验结果验证了tNN-MEANS算法的聚类精度、确定簇的个数、蔟划分的正确率等性能均优于与之对比的其它算法.  相似文献   

6.
混合模型已成为数据分析中最流行的技术之一,由于拥有数学模型,它通常比聚类分析中的传统的方法产生的结果更精确,而关键因素是混合模型中子总体个数,它决定了数据分析的最终结果。期望最大化(EM)算法常用在混合模型的参数估计,以及机器学习和聚类领域中的参数估计中,是一种从不完全数据或者是有缺失值的数据中求解参数极大似然估计的迭代算法。学者们往往采用AIC和BIC的方法来确定子总体的个数,而这两种方法在实际的应用中的效果并不稳定,甚至可能会产生错误的结果。针对此问题,本文提出了一种利用似然函数的碎石图来确定混合模型中子总体的个数的新方法。实验结果表明,本文方法确定的子总体的个数在大部分理想的情况下可以得到与AIC、BIC方法确定的聚类个数相同的结果,而在一般的实际数据中或条件不理想的状态下,碎石图方法也可以得到更可靠的结果。随后,本文将新方法在选取的黄石公园喷泉数据的参数估计中进行了实际的应用。  相似文献   

7.
俞燕  徐勤丰  孙鹏飞 《应用数学》2006,19(3):600-605
本文基于Dirichlet分布有限混合模型,提出了一种用于成分数据的Bayes聚类方法.采用EM算法获得模型参数的估计,用BIC准则确定类数,用类似于Bayes判别的方法对各观测分类.推导了计算公式,编写出程序.模拟研究结果表明,本文提出的方法有较好的聚类效果.  相似文献   

8.
本文基于隐变量的有限混合模型,提出了一种用于有序数据的Bayes聚类方法.我们采用EM算法获得模型参数的估计,用BIC准则确定类数,用类似于Bayes判别的方法对各观测分类.模拟研究结果表明,本文提出的方法有较好的聚类效果,对于中等规模的数据集,计算量是可以接受的.  相似文献   

9.
模糊ISODATA方法作为一种常用的聚类方法,在许多领域得到了广泛的应用.但作为一种聚类方法,它却没有显示出能自动聚类的效果,而只是对普通分类的一个扩展.在每次聚类前它仍要预先凭经验来给定一个分类数C因此,本文针对这个缺陷,提出了一个改进方案,使之能自动给出分类数C并在实例中得到了检验和应用.  相似文献   

10.
一种新的分类方法   总被引:5,自引:0,他引:5  
本文在属性聚类网络的基础上 ,提出了堆近邻分类方法 .通过将无监督的属性聚类加上有监督信息 ,能自适应地优选堆数 .样本所考察的近邻个数依据它所在的堆的大小 ,因而每个样本所考查的近邻的个数不是完全相等的 .这种方法可用到高维小样本的数据分类问题中 .我们将它应用到基因表达谱形式的癌症辩识问题中 ,结果表明分类性能得到了较大的提高  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号