共查询到20条相似文献,搜索用时 0 毫秒
1.
为了满足对XML文档集合进行数据挖掘需求,本文提出了根据XML文档树的语义信息和结构信息来计算其结构相似度,通过结构相似度构造其结构相似度矩阵,在此基础上应用DBSCAN算法来对XML文档集合进行聚类.与其他聚类算法相比,其聚类的速度得到了很大的提高. 相似文献
2.
通过对XML结构聚类现状进行研究分析,提出了一种新的XML文档结构相似度度量方法DBTD(Density-Based of the Tree Distance),并在此基础上提出以基于密度的DBSCAN方法对XML文档进行结构聚类.实验表明:该方法能够对XML文档进行结构聚类,且其聚类结果充分展现了该方法的有效性. 相似文献
3.
提出了基于最优超球面与支持向量机思想的动态聚类算法。该方法借鉴了最优超球面思想,通过构造一个二次规划问题.运用支持向量代替样本构造相似度度量矩阵,从而解决了不确定问题维度对计算复杂性的影响。仿真试验表明:该方法可以解决相互缠绕和凹聚类问题。并具有较好的抗干扰能力。 相似文献
4.
个性化服务中用户兴趣聚类算法研究 总被引:2,自引:0,他引:2
讨论了个性化服务中用户兴趣建模对聚类算法的要求,指出经典聚类算法应用于用户兴趣聚类时的不足。在基于图论的K近邻聚类算法的基础上进行改进,提出一种基于相似度的聚类算法。实验证明,与K近邻算法相比,该算法能够显著提高聚类质量,有效区分孤立点,适用于用户兴趣聚类。 相似文献
5.
6.
7.
基于案例推理技术在众多领域已经得到了广泛地应用.本文首先将案例库按层次进行聚类,在此基础上设计了一个基于异构案例库的检索策略.分析了案例库层次聚类规则,重点论述了在聚类基础上的案例检索策略.根据实验结果表明,该方法能够有效地提高案例库中案例的利用率以及案例检索的成功率. 相似文献
8.
一种基于调和均值的模糊聚类算法 总被引:1,自引:0,他引:1
k调和均值算法用数据点与所有聚类中心的距离的调和平均替代了数据点与聚类中心的最小距离,是一种减小初始值影响聚类结果的有效的聚类方法。本文对k调和均值算法进行扩展,考虑到数据点同时对不同聚类的隶属关系,将模糊的概念应用到聚类中,提出了模糊k调和均值-Fuzzv K—Harmonic Means(FKHM)算法。在中心迭代聚类算法的统一框架的基础上,推导出FKHM算法聚类中心的条件概率表达式以及在迭代过程中的数据点加权函数表达式。以划分相似度作为聚类结果的评价准则,实验表明,FKHM算法在聚类对于初值不敏感的同时提高了聚类结果的精确度,达到较好的聚类效果。 相似文献
9.
基于相似度的词聚类算法 总被引:1,自引:1,他引:0
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文提出了词相似度定义、词集合相似度定义,一种自下而上的分层聚类算法.这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,从而提高聚类的使用效果. 相似文献
10.
提出一种新的图聚类算法,结合结点的结构及属性特性,使用统一的随机移动距离计算结点间的相似度,在邻接随机移动距离矩阵的基础上进行聚类.实验结果表明,基于属性扩展图的聚类算法在图拓扑结构的基础上,充分考虑了各个结点所拥有的属性特点,得到的聚类结果将更好的切合实际的应用. 相似文献
11.
模糊C均值(FCM)聚类算法及其相关改进算法基于最大模糊隶属度原则确定聚类结果,没有充分利用迭代后的模糊隶属度矩阵和簇类中心的样本属性特征信息,影响聚类准确度。针对这个问题,该文提出一种新的改进思路:改进FCM算法输出定类原则。给出二元属性拓扑子空间中属性相似度的定义,最终提出一种基于属性空间相似性的改进FCM算法(FCM-SAS):首先,选择FCM算法聚类后模糊隶属度低于聚类置信度的样本作为存疑样本;然后,计算存疑样本与聚类后聚类中心的属性相似度;最后,基于最大属性相似度原则更新存疑样本的簇类标签。通过UCI数据集实验,证明算法不仅有效,还较一些基于最大模糊隶属度原则定类的改进算法具有更优的聚类评价指标。 相似文献
12.
密度峰值聚类算法(DPC)通过决策图直观地找到类簇中心进而完成聚类,是一种简单高效的聚类算法。然而,DPC算法的截断距离和类簇中心都是人为确定的,受主观影响较大,具有不确定性。针对上述问题,提出一种基于类簇合并的无参数密度峰值聚类算法(NDPCCM)。首先根据样本点两两之间的相似度的分布特征将其分为类内相似度和类间相似度两种类型,并利用类内相似度自动确定截断相似度,避免了人为设置参数;接着根据簇中心权值的下降趋势自动选择初始类簇中心,得到初始类簇;最后通过合并初始类簇对初步聚类结果进行优化,提高了聚类的准确性。在人工数据集和UCI真实数据集上,将所提算法与DPC、DBSCAN、K-means算法进行对比实验。结果表明所提算法无需输入参数就能够自动得到类簇,且聚类性能优于其他算法。 相似文献
13.
针对在支持向量聚类,当样本分布不均匀时,单宽度的高斯核限制了支持向量机泛化性能,影响了聚类效果的问题,提出一种基于加权多宽度高斯核函数的支持向量聚类算法。加权多宽度高斯核函数比单宽度的高斯核有更多的可调参数,通过多参数调节,可提高泛化能力,改善聚类效果。仿真实验表明,与单宽度的高斯核相比,加权多宽度高斯核可以有效聚类,从而证明了该算法的有效性。 相似文献
14.
15.
针对基于支持向量机的聚类算法中,由于高斯核在无限远处的衰减几乎为零,从而影响聚类效果的问题,采用了改进的高斯核函数。该方法使在高维特征空间中,核函数不仅满足在测试点附近有较快的衰减速度,而且在无限远处仍能保持适度的衰减,从而提高聚类效果。实验表明,改进的高斯核比高斯核聚类错误率更低。 相似文献
16.
17.
指纹匹配算法的好坏直接影响识别系统的精度。提出了一种新的基于细节点聚类的多参考中心指纹匹配算法,在两枚指纹对齐阶段,不仅考虑了指纹的全局特性而且根据不同的细节点类自适应地构造不同的局部结构.有效地利用了一些孤立但信息量较大的细节点,提高重叠区域内细节点较少且分散的情况下对齐的准确性。在匹配阶段。多参考中心的使用和相似元分析的结合能在一定程度上克服指纹非线性形变的影响,降低了匹配算法的拒识率。实验结果表明该方法提高了匹配的性能。 相似文献
18.
19.
在大数据的数据挖掘模型中,普遍采用模糊聚类算法进行数据分析。常用的模糊C均值聚类算法即FCM聚类算法,具有较多明显缺点,如抗噪性偏低、收敛速度慢、聚类数目无法自动确定等。常用的增量式模糊聚类方法通常在原有的以一个中心点为集群代表的基础上,改为选取多中心点进行增量式聚类算法的分析。但是,通过这样的算法进行数据分析也存在一定的问题,主要表现在其中心点选择是固定的,灵活性很差。基于以上原因,文中将对原有基础算法做出改进,主要对大数据中数据挖掘模型的增量型模糊聚类算法做出分析,经实践验证,改进后算法切实可行,普适性较强。 相似文献