首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
一种改进的遗传k-means聚类算法   总被引:8,自引:0,他引:8  
在经典的k-means聚类算法中,聚类数k必须事先给定,然而在现实中k很难被精确的确定.本文提出了一种改进的遗传k-means聚类算法,并构造了一个用来评价分类程度好坏的适应度函数,该适应度函数考虑的是在提高紧凑度(类内距)和分离度(类间距)的同时使得分类个数尽可能少.最后采用两个人工数据集和三个UCI数据集对k-means聚类算法(KM),遗传聚类算法(GA),遗传k-means聚类算法(GKM)和改进的遗传k-means聚类算法(IGKM)进行比较研究,比较的指标有类间距、类内距和分类正确率.研究证明改进的遗传k-means算法能够自动获取最佳聚类数k并且保持较高的正确率.  相似文献   

2.
针对现有指标筛选方法不能将指标客观数据和指标实际含义同时处理的弊端,研究提出了一种新型粗糙集指标筛选方法,并对绿色经济下的社会可持续发展评价指标体系构建进行了实证分析.方法同时将粗糙集决策表的相对约简理论与信息表的属性约简理论相结合,既保证了筛选的客观性又兼顾了指标的实际含义,其主要做法一是通过布尔推理算法,保证了连续型指标离散化过程中候选断点的最优组合,为粗糙集约简提供了高准确率的信息表数据;二是考虑了指标的实际含义,通过对有因果关系的指标构成的决策表进行相对约简,删除了指标信息间的冗余指标;三是通过对无实际联系的指标构成的信息表进行属性约简,删除了研究指标客观数据中的冗余指标.  相似文献   

3.
针对评估指标的重要性不一,且存在冗余问题,基于粗集可辨识矩阵,提出了一种计算指标属性重要度和约简的有效、简便算法,对样本信息进行约简,并计算约简后各指标的权重.其中,针对连续属性值离散化过程可能造成信息损失问题,采用了模糊C均值聚类算法离散化连续属性值.最后,建立了基于粗糙集和模糊C均值聚类的空战效能评估模型,并通过实例验证了该模型的可行性和有效性.  相似文献   

4.
刘潇  王效俐 《运筹与管理》2021,30(3):104-111
对客户价值进行分类, 识别重要价值客户, 对航空公司获利至关重要。本文提出了基于k-means和邻域粗糙集的航空客户价值分类模型。首先, 从客户的当前价值和潜在价值双视角出发, 建立了航空客户综合价值评价指标体系; 之后, 采用基于Elbow的k-means方法对航空客户进行聚类, 采用邻域粗糙集方法对决策系统进行指标约简, 根据约简后的决策系统完成客户价值初筛。评估前先使用SMOTE方法消除数据的不平衡性, 而后采用网格搜索组合分类器的方法对航空客户价值分类的效果进行评估和检验。最后, 根据评估结果对航空客户价值细分。文末, 对国内某航空公司的62988条真实客户记录进行了实证分析和验证, 其中, 潜在VIP客户群的分类准确率达到了92%, 从而为航空客户价值分类提供了一种新思路。  相似文献   

5.
针对复杂系统分析中的数据信息冗余问题,提出一种基于Vague粗糙集信息熵的属性约简算法。首先,对Vague粗糙集相关概念进行拓展,提出Vague粗糙集的扩展信息熵和广义信息熵的模型;其次,对基于信息熵的属性重要性度量和属性约简原理进行研究,进而提出了一种基于Vague粗糙集信息熵的监督式属性约简算法;最后,选取UCI数据库对算法性能进行验证,计算结果表明该算法实用有效。  相似文献   

6.
覆盖广义粗糙集是Pawlak粗糙集的重要推广,其属性约简是粗糙集理论中最重要的问题之一.Tsang等基于一种生成覆盖设计了覆盖信息系统属性约简算法,但并未明确指出其适用的覆盖粗糙集类型.在本文中,我们首先指出Tsang的属性约简算法适用的覆盖粗糙集是第五,第六和第七类.其次,我们通过建立覆盖与自反且传递的二元关系之间的等价关系,提出了一种时间复杂度更低的属性约简算法,并证明了本文中的属性约简方法就是Wang等所提出的一般二元关系属性约简的特例.本文不仅提出了属性约简的简化算法,还首次建立起覆盖属性约简与二元关系属性约简之间的联系,具有理论和实际的双重意义.  相似文献   

7.
一种基于模糊聚类的区间值属性约简算法   总被引:1,自引:0,他引:1  
针对区间值信息系统基于粗糙集理论提出一种新的属性约简算法:首先计算同一属性下对象间的相似度,然后通过合取算子计算出所有属性下对象之间的相似度矩阵,再用模糊聚类中的传递闭包算子得到等价矩阵,将区间值信息系统转化为具有等价关系的信息系统并且进行约简,从而得到λ-核,同时给出了该算法的复杂度.最后通过一个实例表明这种算法的有效性和合理性.  相似文献   

8.
多粒度模糊粗糙集研究   总被引:1,自引:0,他引:1       下载免费PDF全文
李聪 《数学杂志》2016,36(1):124-134
本文研究了模糊粗糙集中属性约简问题.利用模糊粗糙集和多粒度粗糙集各自优点的结合,提出了两类多粒度模糊粗糙集模型,使得两类粗糙集中的上下近似算子关于负算子对偶.同时研究了多粒度模糊粗糙集的性质及与单粒度模糊粗糙集的关系.并通过构造区分函数的方法提出了一类多粒度模糊粗糙集模型的近似约简方法.最后用一个实例核对了该类多粒度模糊粗糙决策系统近似约简方法的有效性.  相似文献   

9.
为了对开源设计网络社区中的用户进行细分研究,首先采用复杂社会网络技术建立了社区组织的复杂网络模型.其次,根据用户在社区中的三种行为设立了备选指标,并通过指标聚类的方法对指标进行筛选,保证了聚类指标的全面性和代表性.在此基础上,以OpenIDEO为研究案例,采用K-Means算法对该社区中的用户进行了聚类,根据聚类结果将用户分为了创新型用户、传播型用户和普通用户,并进一步分析了各类用户的特点及参与动机.聚类结果表明,所提出的聚类指标及算法可以清晰地识别出开源社区的用户类型及占比,为开源设计社区管理机制和激励措施的优化提供了准确的依据.  相似文献   

10.
针对一类具有不确定性区间数多指标信息的聚类分析问题,依据传统的基于数值信息的FCM聚类算法的思路,提出了一种新的聚类分析算法。章首先描述了具有区间数多指标信息的聚类分析问题;其次给出了基于区间数多指标信息的关于最优划分和最优聚类中心确定的两个定理;然后给出了基于区间数多指标信息的FCM聚类算法的计算步骤。该算法的特点是聚类中心的表现形式为精确的数值,给出的两个定理说明了该聚类算法的收敛性。最后,通过给出一个算例说明了本给出的聚类算法。  相似文献   

11.
k-平均问题是计算机科学和组合优化领域的经典问题之一.k-平均聚类作为最受重视而且最简单易懂的一种聚类分析方法流行于数据挖掘领域.k-平均问题可描述为:给定n个元素的观测集,其中每个观测点都是d维实向量,目标是把这n个观测点划分到k(≤n)个集合中,使得所有集合中的点到对应的聚类中心的距离的平方和最小,其中一个集合的聚类中心指的是该集合中所有观测点的均值.k-平均问题在理论上是NP-难的,但有高效的启发式算法,广泛应用在市场划分、机器视觉、地质统计学、天文学和农业等实际背景中.随着实际问题中遇到的k-平均问题更加复杂,数据量更加庞大,还需学者进行更深一步的研究.罗列出k-平均问题及其诸多变形及推广问题的经典算法,并总结k-平均中尚待研究的若干问题.  相似文献   

12.
k-均值问题自提出以来一直吸引组合优化和计算机科学领域的广泛关注, 是经典的NP-难问题之一. 给定N个d维实向量构成的观测集, 目标是把这N个观测点划分到k(\leq N)个集合中, 使得所有集合中的点到对应的聚类中心距离的平方和最小, 一个集合的聚类中心指的是该集合 中所有观测点的均值. k-均值算法作为解决k-均值问题的启发式算法,在实际应用中因其出色的收敛速度而倍受欢迎. k-均值算法可描述为: 给定问题的初始化分组, 交替进行指派(将观测点分配到离其最近的均值点)和更新(计算新的聚类的均值点)直到收敛到某一解. 该算法通常被认为几乎是线性收敛的. 但缺点也很明显, 无法保证得到的是全局最优解, 并且算法结果好坏过于依赖初始解的选取. 于是学者们纷纷提出不同的初始化方法来提高k-均值算法的质量. 现筛选和罗列了关于选取初始解的k-均值算法的初始化方法供读者参考.  相似文献   

13.
运用聚类方法把公司财务状况分为5个等级,分别为财务状况健康,良好,一般,预警和危机,与以往将研究样本分为ST和非ST两类的财务预警模型相比,5分类模型更加精确合理,贴近实际。同时基于指标相关性和指标重要度对33个财务指标进行了约简,得到9个能够反映企业财务状况的财务指标。以约简后的9个指标及5个等级的财务状况来建立决策树,指标体系和财务等级更加合理。树的生成过程运用粗糙集中的变精度加权平均粗糙度作为选择测试属性的方法,每次选择变精度加权平均粗糙度值最小的属性作为分支结点。变精度加权平均粗糙度的应用提高了决策树的防噪声能力,复杂性较低且能有效提高分类效果。实证研究表明将它应用到财务预警领域,提高了财务预警的分类精度。  相似文献   

14.
基于福州市汽车路况数据,研究汽车行驶工况构建方法.用运动学片段分析法对GPS车速划分运动学片段,构建14个与速度相关的运动学特征.采用主成分分析和k均值聚类对运动学片段进行特征分析和分类.针对分类的运动学片段分别采用MH抽样算法,抽取新的速度时间序列,以划分新的运动学片段.基于短行程法对聚类的运动学片段和抽样的运动学片段分别构建工况,选取以平均速度为代表的10个特征的相对误差作为工况筛选标准,实验验证了基于原始运动学片段构建的工况和MH抽样运动学片段构建的工况与原数据误差均小于10%,其中7个特征误差小于5%,验证了MH抽样算法在构建工况时的有效性.  相似文献   

15.
科学评价高新技术企业自主创新能力,可加快推进高新技术企业成为自主创新主体.运用粗糙集属性约简区分矩阵算法对高新技术企业自主创新能力评价指标进行约简,通过熵权法客观确定指标权重,采用TOPSIS法进行综合评价.以某市高新技术企业为具体实例,得出按企业登记注册类型分的各类高新技术企业自主创新能力排序,证明了该评价方法的可行性和有效性.  相似文献   

16.
传统的K-modes算法采用了简单的0-1匹配来计算属性间的相异度,后改进为频率计算相异度,但是他们都忽略了各属性间的差异。本文研究了基于粗糙集和知识粒度的属性加权算法,该算法既克服了属性的冗余问题又综合考虑了各属性间的差异。在此基础上,通过对传统K-modes算法进行属性加权来改进K-modes算法中忽略的属性间差异问题。通过与其他的K-Modes算法进行实验比较,结果表明新的算法更加有效的。  相似文献   

17.
针对突发事件不完备信息系统中的原始数据存在大量属性冗余的问题,提出一种基于粗糙集的不完备信息系统属性约简方法,以剔除冗余属性,提高知识清晰度。首先对缺失、冗余、噪声以及连续型数据进行预处理;然后进行属性分类,将属性分为条件属性与决策属性,进而建立决策表;最后根据决策表的特征,结合有序加权平均算子的思想,提出一种基于属性重要度的启发式属性约简算法。文末,通过实例验证了方法的正确性与有效性,并利用该方法实现了火灾数据的属性约简。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号