首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
为了满足对XML文档集合进行数据挖掘需求,本文提出了根据XML文档树的语义信息和结构信息来计算其结构相似度,通过结构相似度构造其结构相似度矩阵,在此基础上应用DBSCAN算法来对XML文档集合进行聚类.与其他聚类算法相比,其聚类的速度得到了很大的提高.  相似文献   

2.
罗丹  刘先锋 《信息技术》2009,33(8):24-26,31
通过对XML结构聚类现状进行研究分析,提出了一种新的XML文档结构相似度度量方法DBTD(Density-Based of the Tree Distance),并在此基础上提出以基于密度的DBSCAN方法对XML文档进行结构聚类.实验表明:该方法能够对XML文档进行结构聚类,且其聚类结果充分展现了该方法的有效性.  相似文献   

3.
提出了基于最优超球面与支持向量机思想的动态聚类算法。该方法借鉴了最优超球面思想,通过构造一个二次规划问题.运用支持向量代替样本构造相似度度量矩阵,从而解决了不确定问题维度对计算复杂性的影响。仿真试验表明:该方法可以解决相互缠绕和凹聚类问题。并具有较好的抗干扰能力。  相似文献   

4.
个性化服务中用户兴趣聚类算法研究   总被引:2,自引:0,他引:2  
李春妍  王勇 《信息技术》2007,(10):77-80
讨论了个性化服务中用户兴趣建模对聚类算法的要求,指出经典聚类算法应用于用户兴趣聚类时的不足。在基于图论的K近邻聚类算法的基础上进行改进,提出一种基于相似度的聚类算法。实验证明,与K近邻算法相比,该算法能够显著提高聚类质量,有效区分孤立点,适用于用户兴趣聚类。  相似文献   

5.
基于小波模糊聚类区域分割的图像检索   总被引:3,自引:0,他引:3  
吴冬升  吴乐南  黄波 《信号处理》2002,18(5):422-426
基于内容的图像检索是近年来的研究热点,本文给出一种基于区域分割的图像检索算法。算法首先对图像按JPEG2000标准进行小波变换,对变换得到的低频子带提取一定的颜色和纹理特征用于模糊聚类,从而将图像的低频子带分割为一定的区域,将分割结果映射回整幅图像,提取整幅图像各个区域的特征矢量,用于区域相似度比较,最后按照一定的区域匹配准则得到整幅图像之间的相似度。实验结果表明,本文算法具有良好的图像检索性能。  相似文献   

6.
在现代战争中,随着新体制雷达的不断涌现,电磁环境变得越来越复杂,这就对雷达信号分选提出了新的挑战。对核模糊聚类进行了研究分析,并将其应用到雷达信号分选当中。仿真实验证明能够取得很好的雷达信号分选效果,为雷达信号分选提供了新的思路。  相似文献   

7.
基于案例推理技术在众多领域已经得到了广泛地应用.本文首先将案例库按层次进行聚类,在此基础上设计了一个基于异构案例库的检索策略.分析了案例库层次聚类规则,重点论述了在聚类基础上的案例检索策略.根据实验结果表明,该方法能够有效地提高案例库中案例的利用率以及案例检索的成功率.  相似文献   

8.
一种基于调和均值的模糊聚类算法   总被引:1,自引:0,他引:1  
k调和均值算法用数据点与所有聚类中心的距离的调和平均替代了数据点与聚类中心的最小距离,是一种减小初始值影响聚类结果的有效的聚类方法。本文对k调和均值算法进行扩展,考虑到数据点同时对不同聚类的隶属关系,将模糊的概念应用到聚类中,提出了模糊k调和均值-Fuzzv K—Harmonic Means(FKHM)算法。在中心迭代聚类算法的统一框架的基础上,推导出FKHM算法聚类中心的条件概率表达式以及在迭代过程中的数据点加权函数表达式。以划分相似度作为聚类结果的评价准则,实验表明,FKHM算法在聚类对于初值不敏感的同时提高了聚类结果的精确度,达到较好的聚类效果。  相似文献   

9.
基于相似度的词聚类算法   总被引:1,自引:1,他引:0  
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文提出了词相似度定义、词集合相似度定义,一种自下而上的分层聚类算法.这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,从而提高聚类的使用效果.  相似文献   

10.
提出一种新的图聚类算法,结合结点的结构及属性特性,使用统一的随机移动距离计算结点间的相似度,在邻接随机移动距离矩阵的基础上进行聚类.实验结果表明,基于属性扩展图的聚类算法在图拓扑结构的基础上,充分考虑了各个结点所拥有的属性特点,得到的聚类结果将更好的切合实际的应用.  相似文献   

11.
模糊C均值(FCM)聚类算法及其相关改进算法基于最大模糊隶属度原则确定聚类结果,没有充分利用迭代后的模糊隶属度矩阵和簇类中心的样本属性特征信息,影响聚类准确度。针对这个问题,该文提出一种新的改进思路:改进FCM算法输出定类原则。给出二元属性拓扑子空间中属性相似度的定义,最终提出一种基于属性空间相似性的改进FCM算法(FCM-SAS):首先,选择FCM算法聚类后模糊隶属度低于聚类置信度的样本作为存疑样本;然后,计算存疑样本与聚类后聚类中心的属性相似度;最后,基于最大属性相似度原则更新存疑样本的簇类标签。通过UCI数据集实验,证明算法不仅有效,还较一些基于最大模糊隶属度原则定类的改进算法具有更优的聚类评价指标。  相似文献   

12.
密度峰值聚类算法(DPC)通过决策图直观地找到类簇中心进而完成聚类,是一种简单高效的聚类算法。然而,DPC算法的截断距离和类簇中心都是人为确定的,受主观影响较大,具有不确定性。针对上述问题,提出一种基于类簇合并的无参数密度峰值聚类算法(NDPCCM)。首先根据样本点两两之间的相似度的分布特征将其分为类内相似度和类间相似度两种类型,并利用类内相似度自动确定截断相似度,避免了人为设置参数;接着根据簇中心权值的下降趋势自动选择初始类簇中心,得到初始类簇;最后通过合并初始类簇对初步聚类结果进行优化,提高了聚类的准确性。在人工数据集和UCI真实数据集上,将所提算法与DPC、DBSCAN、K-means算法进行对比实验。结果表明所提算法无需输入参数就能够自动得到类簇,且聚类性能优于其他算法。  相似文献   

13.
针对在支持向量聚类,当样本分布不均匀时,单宽度的高斯核限制了支持向量机泛化性能,影响了聚类效果的问题,提出一种基于加权多宽度高斯核函数的支持向量聚类算法。加权多宽度高斯核函数比单宽度的高斯核有更多的可调参数,通过多参数调节,可提高泛化能力,改善聚类效果。仿真实验表明,与单宽度的高斯核相比,加权多宽度高斯核可以有效聚类,从而证明了该算法的有效性。  相似文献   

14.
基于结构相似度的轨迹聚类算法   总被引:3,自引:0,他引:3  
袁冠  夏士雄  张磊  周勇 《通信学报》2011,(9):103-110
针对目前轨迹数据聚类直接以整条轨迹数据作为基本单元,导致聚类效果降低的问题,提出了基于结构相似度的轨迹聚类算法。算法引入轨迹结构的概念,并给出结构相似度计算函数来分析轨迹内外部特征。首先根据转角将轨迹划分成若干轨迹段,然后通过计算轨迹段的结构相似度来判断轨迹的匹配程度,进而完成轨迹聚类。真实数据的实验结果表明:该算法较其他同类算法分析轨迹更全面、效率更高;可以通过不同参数灵活调整特征的敏感度,聚类结果更具有实际意义。  相似文献   

15.
针对基于支持向量机的聚类算法中,由于高斯核在无限远处的衰减几乎为零,从而影响聚类效果的问题,采用了改进的高斯核函数。该方法使在高维特征空间中,核函数不仅满足在测试点附近有较快的衰减速度,而且在无限远处仍能保持适度的衰减,从而提高聚类效果。实验表明,改进的高斯核比高斯核聚类错误率更低。  相似文献   

16.
《现代电子技术》2017,(14):81-84
用户评论中存在产品特征表达多样性问题,在细粒度观点挖掘任务中需要对产品特征词聚类。首先,结合不同的语义相似度计算的特点,提出基于语义知识和上下文熵模型的语义相似度混合计算方法,计算抽取得到的特征词语义相似度;然后改进了传统CBC算法,提出适用于产品特征词聚类的CBC-LIKE方法实现聚类。最后在三个领域的真实评论语料上进行实验,对提出的语义相似度计算方法和聚类算法的性能进行了分析。实验结果表明,所提方法是有效的,与另外两种基线方法相比性能较优,取得了较好效果。  相似文献   

17.
指纹匹配算法的好坏直接影响识别系统的精度。提出了一种新的基于细节点聚类的多参考中心指纹匹配算法,在两枚指纹对齐阶段,不仅考虑了指纹的全局特性而且根据不同的细节点类自适应地构造不同的局部结构.有效地利用了一些孤立但信息量较大的细节点,提高重叠区域内细节点较少且分散的情况下对齐的准确性。在匹配阶段。多参考中心的使用和相似元分析的结合能在一定程度上克服指纹非线性形变的影响,降低了匹配算法的拒识率。实验结果表明该方法提高了匹配的性能。  相似文献   

18.
聚类算法及聚类融合算法研究   总被引:1,自引:0,他引:1  
基于常用聚类算法及聚类融合算法进行了研究。首先阐述了数据挖掘领域的常用聚类算法及特点,接下来对近年来聚类融合的方法和研究现状进行了综述,并对如何产生高效的聚类成员和共识函数如何构建才能产生高效的聚类融合算法进行了说明。运用改进的随机投影算法来生成聚类成员,实验表明随机投影是一个生成聚类成员的很有效的方法。最后得出运用聚...  相似文献   

19.
在大数据的数据挖掘模型中,普遍采用模糊聚类算法进行数据分析。常用的模糊C均值聚类算法即FCM聚类算法,具有较多明显缺点,如抗噪性偏低、收敛速度慢、聚类数目无法自动确定等。常用的增量式模糊聚类方法通常在原有的以一个中心点为集群代表的基础上,改为选取多中心点进行增量式聚类算法的分析。但是,通过这样的算法进行数据分析也存在一定的问题,主要表现在其中心点选择是固定的,灵活性很差。基于以上原因,文中将对原有基础算法做出改进,主要对大数据中数据挖掘模型的增量型模糊聚类算法做出分析,经实践验证,改进后算法切实可行,普适性较强。  相似文献   

20.
范明  田铮  赵伟 《电子设计工程》2013,21(4):134-136
模糊C-均值(FCM)聚类模型是数据模式识别的一类重要工具。在FCM的基础上,结合了数据的类间离散度信息和空间约束信息,提出了FCM型算法的统一框架--Unified FCM,简称UFCM。针对UFCM算法难以处理非线性分类的问题,运用核技巧,得到核空间的UFCM算法--KUFCM。提出使用最短路作为数据点间的距离度量,提高了算法的聚类精度。实验表明,相对于FCM及其改进算法,KUFCM不仅提高了聚类算法的分类精度,而且改善了FCM型算法对噪声数据的稳健性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号