首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 484 毫秒
1.
提出了一类具有自适应参数的改进DBSCAN聚类算法,并应用于发现证券市场中关联基金账户所组成的信息群落.算法针对传统算法中半径参数ε敏感度高,对于多层密度数据集难以选择全局参数而导致聚类结果差等缺点进行了改进,此外还基于实际市场数据特征,自定义了刻画两个基金间相似程度的综合距离,使得改进算法能更好地应用在解决实际问题上.最后通过基于模拟数据和实际数据的数值实验,验证了改进算法的有效性.  相似文献   

2.
将多层核心集凝聚算法应用于函数型数据分析,并应用于金融数据聚类.首先,依托金融数据的函数型特征对其进行基函数展开;其次,对产生的高维数据进行特征提取;最后,用多层核心集凝聚算法进行聚类.实验对股票波动率曲线进行聚类,挖掘出股票数据波动的内在特征,可以客观地对股票板块进行划分.  相似文献   

3.
区间型符号数据是一种重要的符号数据类型,现有文献往往假设区间内的点数据服从均匀分布,导致其应用的局限性。本文基于一般分布的假设,给出了一般分布区间型符号数据的扩展的Hausdorff距离度量,基于此提出了一般分布的区间型符号数据的SOM聚类算法。随机模拟试验的结果表明,基于本文提出的基于扩展的Hausdorff距离度量的SOM聚类算法的有效性优于基于传统Hausdorff距离度量的SOM聚类算法和基于μσ距离度量的SOM聚类算法。最后将文中方法应用于气象数据的聚类分析,示例文中方法的应用步骤与可操作性,并进一步评价文中方法在解决实际问题中的有效性。  相似文献   

4.
针对传统的谱聚类算法不适合处理多尺度问题,引入一种新的相似性度量—密度敏感的相似性度量,该度量可以放大不同高密度区域内数据点间距离,缩短同一高密度区域内数据点间距离,最终有效描述数据的实际聚类分布.本文引入特征间隙的概念,给出一种自动确定聚类数目的方法.数值实验验证本文所提的算法的可行性和有效性.  相似文献   

5.
K-means算法是一种非常重要的聚类算法,然而算法的聚类效果受簇的个数、初始中心点位置的影响很大.提出基于优化初始中心集合和中心移动算法tNN-MEANS,算法有效解决了以下三个问题:1)准确确定大规模数据集中簇的个数;2)精确确定全局高密度的核心区域;3)克服了簇中存在多个高密度区域的问题.运用UCI数据集分别对X-means算法、DBSCAN算法和tNN-MEANS算法进行对比实验,实验结果验证了tNN-MEANS算法的聚类精度、确定簇的个数、蔟划分的正确率等性能均优于与之对比的其它算法.  相似文献   

6.
针对高维稀疏数据预处理过程,提出了运用两阶段协同聚类算法(MTSCCA)来获得质量较好的高维稀疏对象-属性的子空间,并通过实证研究证明了算法的有效性.  相似文献   

7.
基于AFS拓扑和AFCM的模糊聚类分析   总被引:1,自引:0,他引:1  
在分析AFS方法和AFCM算法的基础上,设计了一个新的模糊聚类算法.它首先应用AFS拓扑理论计算得到数据的相对距离,然后将相对距离应用于改进后的AFCM算法中,并进行了聚类实验.实验结果证明这样的聚类算法优于传统的HCM、FCM聚类算法,而且该方法能应用于含有布尔值或模糊概念的聚类分析中.  相似文献   

8.
基于正交函数系和FCM算法,提出了一种新的时间序列聚类的方法.该方法首先通过一个非线性映射,将长度为n的时间序列映射到L_2空间,然后通过计算函数之间的距离得到时间序列之间的相似度.在此基础上,经过FCM算法实现时间序列的聚类.该方法克服了时间序列的高维数特征为时间序列聚类带来的计算困难.实验结果表明,对高维的时间序列,该方法在压缩率达到80%的情况下,依然具有良好的聚类效果.  相似文献   

9.
利用K-means进行数据聚类时,借用不同处理手段其统计距离和聚类中心等会有所差异,从而影响聚类结果,尤其是当数据维度增高时,这种现象更为明显.对此,文章提出一种基于样本方差的多元统计距离算法,并引入改进人工蜂群算法及评价准则函数确定聚类中心和最佳聚类数,优化K-means算法.理论上,该方法可以克服原算法易陷入局部最优和固定聚类数等缺陷.最后,通过特异值检测,人工数据集以及UCI真实数据集测试验证该优化算法性能.  相似文献   

10.
基于数据流形结构的聚类方法及其应用研究   总被引:1,自引:0,他引:1  
随着信息社会的不断发展,人类已经进入了信息爆炸时代,海量的数据使数据处理变得繁琐复杂,因此如何对现有的高维数据降维、聚类,并在一定程度上消除高维数据中存在的噪声是解决该问题的关键.基于相关的理论知识采用先降维后聚类的步骤,把高维数据按照子空间结构和流形结构两种情况分类,运用稀疏子空间聚类、谱多流形聚类、K-manifolds方法进行建模求解,通过对各种方法的对比,得出谱多流形聚类方法运行速度快,聚类准确度高,是最具有一般性特征的模型.  相似文献   

11.
现有一类分类算法通常采用经典欧氏测度描述样本间相似关系,然而欧氏测度不能较好地反映一些数据集样本的内在分布结构,从而影响这些方法对数据的描述能力.提出一种用于改善一类分类器描述性能的高维空间一类数据距离测度学习算法,与已有距离测度学习算法相比,该算法只需提供目标类数据,通过引入样本先验分布正则化项和L1范数惩罚的距离测度稀疏性约束,能有效解决高维空间小样本情况下的一类数据距离测度学习问题,并通过采用分块协调下降算法高效的解决距离测度学习的优化问题.学习的距离测度能容易的嵌入到一类分类器中,仿真实验结果表明采用学习的距离测度能有效改善一类分类器的描述性能,特别能够改善SVDD的描述能力,从而使得一类分类器具有更强的推广能力.  相似文献   

12.
A clustering methodology based on biological visual models that imitates how humans visually cluster data by spatially associating patterns has been recently proposed. The method is based on Cellular Neural Networks and some resolution adjustments. The Cellular Neural Network rebuilds low-density areas while different resolutions find the best clustering option. The algorithm has demonstrated good performance compared to other clustering techniques. However, its main drawbacks correspond to its inability to operate with more than two-dimensional data sets and the computational time required for the resolution adjustment mechanism. This paper proposes a new version of this clustering methodology to solve such flaws. In the new approach, a pre-processing stage is incorporated featuring a Self-Organization Map that maps complex high-dimensional relations into a reduced lattice yet preserving the topological organization of the initial data set. This reduced representation is employed as the two-dimensional data set for further processing. In the new version, the resolution adjustment process is also accelerated through the use of an optimization method that combines the Hill-Climbing and the Random Search techniques. By incorporating such mechanisms rather than evaluating all possible resolutions, the optimization strategy finds the best resolution for a clustering problem by using a limited number of iterations. The proposed approach has been evaluated, considering several two-dimensional and high-dimensional datasets. Experimental evidence exhibits that the proposed algorithm performs the clustering task over complex problems delivering a 46% faster on average than the original method. The approach is also compared to other popular clustering techniques reported in the literature. Computational experiments demonstrate competitive results in comparison to other algorithms in terms of accuracy and robustness.  相似文献   

13.
针对协同过滤推荐系统具有数据的高稀疏,高维度,数据量大的特点,本文将灰色关联聚类与协同过虑推荐算法相结合,构建了灰色关联聚类的协同过滤推荐算法,将其应用到协同过滤推荐系统中,以解决数据具有高稀疏高维度的特性情况下的个性化推荐质量问题。首先,定义了推荐系统中的用户项目评分矩阵,用户灰色绝对关联度,用户灰色相似度,用户灰色关联聚类。然后,给出了灰色关联聚类的协同过滤推荐算法的计算方法和步骤,同时给出了评价推荐质量方法。最后,将本文算法与基于余弦,相关分析及修正的余弦等协同过滤推荐算法在大小不同的数据集下进行了实验,实验表明灰色关联聚类的协同过滤推荐算法相较于传统的协同过滤推荐方法具有推荐质量高,计算量小,对数据大小要求不高等优点,同时在推荐系统的冷启动,稳定性和计算效率方面也具有一定的优势。  相似文献   

14.
The interest in variable selection for clustering has increased recently due to the growing need in clustering high-dimensional data. Variable selection allows in particular to ease both the clustering and the interpretation of the results. Existing approaches have demonstrated the importance of variable selection for clustering but turn out to be either very time consuming or not sparse enough in high-dimensional spaces. This work proposes to perform a selection of the discriminative variables by introducing sparsity in the loading matrix of the Fisher-EM algorithm. This clustering method has been recently proposed for the simultaneous visualization and clustering of high-dimensional data. It is based on a latent mixture model which fits the data into a low-dimensional discriminative subspace. Three different approaches are proposed in this work to introduce sparsity in the orientation matrix of the discriminative subspace through \(\ell _{1}\) -type penalizations. Experimental comparisons with existing approaches on simulated and real-world data sets demonstrate the interest of the proposed methodology. An application to the segmentation of hyperspectral images of the planet Mars is also presented.  相似文献   

15.
本文提出一种新的聚类算法-基于模糊的投影寻踪算法,可以有效的处理医学中常常遇到的高维混合数据的模糊聚类问题.并将其应用在慢性肾衰的辩证分析问题中,为已有的慢性肾衰证候的分型标准提供科学支持.本文的研究方法为中医辩证的现代化研究开拓了新的思路,值得进一步深入探讨。  相似文献   

16.
针对经典的流形学习算法Isomap在非线性数据稀疏时降维效果下降甚至失效的问题,提出改进的切近邻等距特征映射算法(Cut-Neighbors Isometric feature mapping,CN-Isomap).该算法在数据稀疏的情况下首先通过有效识别样本点的"流形邻居"来剔除近邻图上的"短路"边,然后再通过最短路径算法拟合测地线距离,使得拟合的测地线距离不会偏离流形区域,从而低维嵌入映射能够正确地反映高维输入空间样本点间的内在拓扑特征,很好地发现蕴含在高维空间里的低维流形,有效地对非线性稀疏数据进行降维.通过对Benchmark数据集的实验表明了算法的有效性.CN-Isomap算法是Isomap算法的推广,不仅能有效地对非线性稀疏数据进行降维,同样也适用于数据非稀疏的情况.  相似文献   

17.
话题发现是网络社交平台上进行热点话题预测的一个重要研究问题。针对已有话题发现算法大多基于传统余弦相似度衡量文本数据间的相似性,无法识别各维度取值成比例变化时数据对象间的差异,文本数据相似度计算结果不准确,影响话题发现正确率的问题,提出基于双向改进余弦相似度的话题发现算法(TABOC),首先从方向和取值两个角度改进余弦相似度,提出双向改进余弦相似度,能够区分各维度取值成比例变化的数据对象,保留传统余弦相似度在方向判别上的优势,提高衡量文本相似度的准确性;进一步定义集合的双向改进余弦特征向量和双向改进余弦特征向量的加法等相关定义定理,舍弃无关信息,直接计算新合并集合的特征向量,减小话题发现过程中的时间和空间消耗;还结合增量聚类框架,高效处理新增数据。采用百度贴吧数据进行实验表明,TABOC算法进行话题发现是有效可行的,算法正确率和时间效率总体上优于其他对比算法。  相似文献   

18.
基于加权相似性的BIRCH聚类算法   总被引:1,自引:0,他引:1  
BIRCH方法是一个集成的层次聚类方法.它克服了凝聚层次聚类方法所面临的两个难点:可伸缩性和不能撤销前一步工作的问题.基于BIRCH聚类的多阶段聚类算法思想,结合基于权重的欧式距离度量和基于划分的K-means算法,提出了一种基于加权相似性的BIRCH聚类方法,并将方法应用在时间序列的气象数据分析中.  相似文献   

19.
Model-based clustering is a popular tool which is renowned for its probabilistic foundations and its flexibility. However, model-based clustering techniques usually perform poorly when dealing with high-dimensional data streams, which are nowadays a frequent data type. To overcome this limitation of model-based clustering, we propose an online inference algorithm for the mixture of probabilistic PCA model. The proposed algorithm relies on an EM-based procedure and on a probabilistic and incremental version of PCA. Model selection is also considered in the online setting through parallel computing. Numerical experiments on simulated and real data demonstrate the effectiveness of our approach and compare it to state-of-the-art online EM-based algorithms.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号