首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
离散视角下,函数型自适应权重聚类的有效性取决于基函数的最优选择,目前尚无客观统一准则。基于随机过程的Karhunen-Loeve展开定理,本文对函数型自适应权重聚类分析进行了连续视角的进一步拓展。相对现有同类函数型数据聚类分析,拓展模型的核心优势在于:(1)基于Karhunen-Loeve展开实现了函数空间向多元统计空间的过渡,避免了人为选择基函数的主观任意性;(2)依据变量重要程度重构自适应权重距离为函数之间的相似性测度,并有充分的理论基础保证其必要性、合理性;(3)在充分保留原始数据信息的前提下,能够应用经典的有限维多元分析方法解决无限维的函数型聚类问题。实证检验表明,新模型能够降低聚类过程的计算成本,显著提升分类正确率、稳健性和普遍适用性。  相似文献   

2.
《数理统计与管理》2019,(6):986-995
基于距离的函数型聚类分析包含曲线拟合和聚类两个独立步骤,最优曲线拟合未必有利于类别信息的提取和保留。根据曲线拟合与聚类分析的计算过程,重新梳理了函数型聚类算法;基于距离度量,提出了同时考虑拟合和聚类效果的函数型聚类一步法;在交替方向乘子法(ADMM)框架下推导并给出了迭代求解算法。模拟试验结果显示,该函数型聚类算法有助于提高聚类精度;针对北京市空气质量监测站点二氧化氮(NO_2)污染物小时浓度数据的实例验证分析表明,该函数型聚类算法对不同类别空气质量监测点具有更好的区分度。  相似文献   

3.
引入基于指标权重的欧氏距离描述数据之间的相似程度,通过权重指标评价函数刻画随着权重ω的改变分类模糊程度的变化;运用粒子群优化算法(MPSO),极小化属性权重评价函数,自适应地求得每个指标的权重赋值;将得到的权重应用于聚类算法,将数据按照相似程度不同分类,以分类中出现的孤立点为疑似欺诈点;最后,通过人工复检的方式验证了模型的有效性和准确性。  相似文献   

4.
引入基于指标权重的欧氏距离描述数据之间的相似程度,通过权重指标评价函数刻画随着权重ω的改变分类模糊程度的变化;运用粒子群优化算法(MPSO),极小化属性权重评价函数,自适应地求得每个指标的权重赋值;将得到的权重应用于聚类算法,将数据按照相似程度不同分类,以分类中出现的孤立点为疑似欺诈点;最后,通过人工复检的方式验证了模型的有效性和准确性。  相似文献   

5.
分析了函数型数据主成分分析的原理。在此基础上,提出了一种函数型数据的聚类分析方法,以及在低维空间对原始高维数据进行直观表达的方法。给出了函数型数据的距离定义,并分析了这种距离的定义与欧氏距离的关系。提出函数型数据聚类分析的新方法:1)通过变换把离散数据转化为函数数据;2)进行函数型主成分分析;3)利用提取的前几个主成分构成低维空间,在该低维空间中,采用普通的聚类方法进行聚类分析。采用人体肢体多普勒超声血管造影的数据对所提出的方法的合理性进行验证。结果表明该方法可以有效地对函数型数据进行分类,分类结果与专家临床结论相符,因而有助于临床上对样本做客观判断。该方法不依赖专家的经验判断,且计算过程简便,易于计算机实现及临床应用。  相似文献   

6.
针对传统DBSCAN算法对高维数据集聚类效果不佳且参数的选取敏感问题,提出一种新的基于相似性度量的改进DBSCAN算法.该算法构造了测地距离和共享最近邻的数据点之间的相似度矩阵,克服欧式距离对高维数据的局限性,更好地刻画数据集的真实情况.通过分析数据的分布特征来自适应确定Eps和MinPts参数.实验结果表明,所提GS-DBSCAN算法能够有效地对复杂分布的数据进行聚类,且在高维数据的聚类准确率高于对比算法,验证了算法的准确性和可行性.  相似文献   

7.
区间型符号数据是一种重要的符号数据类型,现有文献往往假设区间内的点数据服从均匀分布,导致其应用的局限性。本文基于一般分布的假设,给出了一般分布区间型符号数据的扩展的Hausdorff距离度量,基于此提出了一般分布的区间型符号数据的SOM聚类算法。随机模拟试验的结果表明,基于本文提出的基于扩展的Hausdorff距离度量的SOM聚类算法的有效性优于基于传统Hausdorff距离度量的SOM聚类算法和基于μσ距离度量的SOM聚类算法。最后将文中方法应用于气象数据的聚类分析,示例文中方法的应用步骤与可操作性,并进一步评价文中方法在解决实际问题中的有效性。  相似文献   

8.
针对采用经典划分思想的聚类算法以一个点来代表类的局限,提出一种基于泛化中心的分类属性数据聚类算法。该算法通过定义包含多个点的泛化中心来代表类,能够体现出类的数据分布特征,并进一步提出泛化中心距离及类间距离度量的新方法,给出泛化中心的确定方法及基于泛化中心进行对象到类分配的聚类策略,一般只需一次划分迭代就能得到最终聚类结果。将泛化中心算法应用到四个基准数据集,并与著名的划分聚类算法K-modes及其两种改进算法进行比较,结果表明泛化中心算法聚类正确率更高,迭代次数更少,是有效可行的。  相似文献   

9.
一种改进的遗传k-means聚类算法   总被引:8,自引:0,他引:8  
在经典的k-means聚类算法中,聚类数k必须事先给定,然而在现实中k很难被精确的确定.本文提出了一种改进的遗传k-means聚类算法,并构造了一个用来评价分类程度好坏的适应度函数,该适应度函数考虑的是在提高紧凑度(类内距)和分离度(类间距)的同时使得分类个数尽可能少.最后采用两个人工数据集和三个UCI数据集对k-means聚类算法(KM),遗传聚类算法(GA),遗传k-means聚类算法(GKM)和改进的遗传k-means聚类算法(IGKM)进行比较研究,比较的指标有类间距、类内距和分类正确率.研究证明改进的遗传k-means算法能够自动获取最佳聚类数k并且保持较高的正确率.  相似文献   

10.
利用K-means进行数据聚类时,借用不同处理手段其统计距离和聚类中心等会有所差异,从而影响聚类结果,尤其是当数据维度增高时,这种现象更为明显.对此,文章提出一种基于样本方差的多元统计距离算法,并引入改进人工蜂群算法及评价准则函数确定聚类中心和最佳聚类数,优化K-means算法.理论上,该方法可以克服原算法易陷入局部最优和固定聚类数等缺陷.最后,通过特异值检测,人工数据集以及UCI真实数据集测试验证该优化算法性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号