首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
针对传统DBSCAN算法对高维数据集聚类效果不佳且参数的选取敏感问题,提出一种新的基于相似性度量的改进DBSCAN算法.该算法构造了测地距离和共享最近邻的数据点之间的相似度矩阵,克服欧式距离对高维数据的局限性,更好地刻画数据集的真实情况.通过分析数据的分布特征来自适应确定Eps和MinPts参数.实验结果表明,所提GS-DBSCAN算法能够有效地对复杂分布的数据进行聚类,且在高维数据的聚类准确率高于对比算法,验证了算法的准确性和可行性.  相似文献   

2.
区间型符号数据是一种重要的符号数据类型,现有文献往往假设区间内的点数据服从均匀分布,导致其应用的局限性。本文基于一般分布的假设,给出了一般分布区间型符号数据的扩展的Hausdorff距离度量,基于此提出了一般分布的区间型符号数据的SOM聚类算法。随机模拟试验的结果表明,基于本文提出的基于扩展的Hausdorff距离度量的SOM聚类算法的有效性优于基于传统Hausdorff距离度量的SOM聚类算法和基于μσ距离度量的SOM聚类算法。最后将文中方法应用于气象数据的聚类分析,示例文中方法的应用步骤与可操作性,并进一步评价文中方法在解决实际问题中的有效性。  相似文献   

3.
基于距离度量的函数型数据聚类是目前函数型聚类分析方法的主要研究方向之一,而该方法主要是基于数值距离或曲线形态的单一角度来衡量函数型数据的相似性.为了解决这种单一性,提出一种同时兼顾函数型数据的数值距离和曲线形态的相似性度量方法—基于极值点偏差补偿的相似性度量,并给出实证分析,结果显示该方法比较有效.进一步提出一种多元函数型聚类分析方法—函数型熵权法,丰富了函数型聚类分析方法.  相似文献   

4.
针对采用经典划分思想的聚类算法以一个点来代表类的局限,提出一种基于泛化中心的分类属性数据聚类算法。该算法通过定义包含多个点的泛化中心来代表类,能够体现出类的数据分布特征,并进一步提出泛化中心距离及类间距离度量的新方法,给出泛化中心的确定方法及基于泛化中心进行对象到类分配的聚类策略,一般只需一次划分迭代就能得到最终聚类结果。将泛化中心算法应用到四个基准数据集,并与著名的划分聚类算法K-modes及其两种改进算法进行比较,结果表明泛化中心算法聚类正确率更高,迭代次数更少,是有效可行的。  相似文献   

5.
半监督学习是近年来机器学习领域中的一个重要研究方向,其监督信息的质量对半监督聚类的结果影响很大,主动学习高质量的监督信息很有必要.提出一种纠错式主动学习成对约束的方法,该算法通过寻找聚类算法本身不能发现的成对约束监督信息,将其引入谱聚类算法,并利用该监督信息来调整谱聚类中点与点之间的距离矩阵.采用双向寻找的方法,将点与点间距离进行排序,使得学习器即使在接收到没有标记的数据时也能进行主动学习,实现了在较少的约束下可得到较好的聚类结果.同时,该算法降低了计算复杂度,解决了聚类过程中成对约束的奇异问题.通过在UCI基准数据集以及人工数据集的实验表明,算法的性能好于相关对比算法,并优于采用随机选取监督信息的谱聚类性能.  相似文献   

6.
《数理统计与管理》2019,(3):450-459
时间序列数据的聚类是对面板数据或多维时间序列根据序列相似度进行分组。聚在同一组的时间序列具有相近的模型参数,尤其是当序列较短时聚类后能够得到更精确的参数估计。现存的时间序列聚类方法的距离度量大都基于时间序列的线性假设,但是现实中时间序列通常是非线性的。本文提出了一种基于Copula距离测度的非线性时间序列数据的聚类方法,它利用了Copula函数获取时间序列的非线性相依结构。作为一种非参数的距离度量,基于Copula函数的距离度量能够识别动态相关结构的相似性。大量的模拟实验和实证研究验证了我们所提方法的有效性。  相似文献   

7.
基于加权相似性的BIRCH聚类算法   总被引:1,自引:0,他引:1  
BIRCH方法是一个集成的层次聚类方法.它克服了凝聚层次聚类方法所面临的两个难点:可伸缩性和不能撤销前一步工作的问题.基于BIRCH聚类的多阶段聚类算法思想,结合基于权重的欧式距离度量和基于划分的K-means算法,提出了一种基于加权相似性的BIRCH聚类方法,并将方法应用在时间序列的气象数据分析中.  相似文献   

8.
股指时间序列的相似性分析是当前金融学研究的热点之一。为了提高股指时间序列相似性分析的准确度,从标度不变性、多重分形及波动聚集性三个层面定义了标度理论的度量指标,并基于此对股指序列进行表示。将分割后的每一序列子区间看作时间点,则分割、表示后的不同股指序列构成一个多指标的面板数据。基于面板数据特征及指标相对重要性,提出了一种新型的多指标面板数据相似性度量函数——复合距离函数,用以度量股指时间序列的相似性。聚类结果表明,相较于其他两种方法,基于标度理论和复合距离函数的相似性度量方法能够显著提高相似性度量的准确度,同时具有较强的稳健性。  相似文献   

9.
有类间距离因素聚类结果的比较分析   总被引:4,自引:0,他引:4  
本文对于有类间距离因素聚类结果的比较,提出了类结构的空间描述方法和比较相似度的度量指标──夹角余弦,并推导出它的一些性质.最后,用蒙特卡洛模拟的结果阐明用夹角余弦作为聚类结果的相似性度量指标是合理的.  相似文献   

10.
基于支持向量机的拟南芥基因表达数据分析   总被引:2,自引:0,他引:2  
针对拟南芥根部基因表达数据分析的问题,本文提出了一种新的基于距离度量学习的支持向机多分类算法.鉴于此问题的特殊性,本文通过最小化4分类机的LOO 误差来求得一个恰当的距离度量.并在此度量下找到若干个属于第5类(其它类)的训练点,从而构造出一个5分类机用来对所有基因分类.实验验证了此算法的可行性,并且比基因表达分析中传统使用的聚类方法更有效.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号