首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 859 毫秒
1.
《数理统计与管理》2013,(6):1071-1078
现有的区间型符号数据的研究大多假定个体在区间内服从均匀分布,实际上往往并非如此.针对该问题,研究了一般分布条件下区间型符号数据的系统聚类方法.阐述了一般分布区间型符号数据的定义,在一般分布的区间型符号数据的描述统计基础上,给出了基于Hausdorff距离的一般分布的区间型符号数据系统聚类算法,并通过随机模拟对聚类有效性进行评价。结果表明:与个体服从均匀分布的假设相比,一般分布的区间型符号数据的系统聚类分析有效性更好.最后将文中方法应用于电子商务客户价值的评价,进行了应用研究.  相似文献   

2.
《数理统计与管理》2014,(4):634-641
基于Hausdorff距离用于定义两个紧集之间距离的考虑,将区间数视为一个紧集,定义了区间数之间的距离,并研究了区间向量的距离,从而得到聚类分析中两个样品间的距离。进一步定义了两个类之间的Hausdorff距离。为消除量纲对聚类结果的影响,研究了区间数据的标准化。基于此,给出了区间数据系统聚类算法。采用随机模拟的方法,对文中方法进行有效性评价,结论表明,Hausdorff距离法的聚类有效性在所有设计的实验条件下都要优于传统的欧式距离法。最后,基于符号数据分析的思想构造区间数据,给出了对多种动物群体按其身高、体重等生理特征进行聚类分析的算例。  相似文献   

3.
对区间型符号数据进行特征选择,可以降低数据的维数,提取数据的关键特征。针对区间型符号数据的特征选择问题,本文提出了一种新的特征选择方法。首先,该方法使用区间数Hausdorff距离和区间数欧氏距离度量区间数的相似性,通过建立使得样本点与样本类中心相似性最大的优化模型来估计区间型符号数据的特征权重。其次,基于特征权重构建相应的分类器来评价所估计特征权重的优劣。最后,为了验证本文方法的有效性,分别在人工生成数据集和真实数据集上进行了数值实验,数值实验结果表明,本文方法可以有效地去除无关特征,识别出与类标号有关的特征。  相似文献   

4.
针对传统的谱聚类算法不适合处理多尺度问题,引入一种新的相似性度量—密度敏感的相似性度量,该度量可以放大不同高密度区域内数据点间距离,缩短同一高密度区域内数据点间距离,最终有效描述数据的实际聚类分布.本文引入特征间隙的概念,给出一种自动确定聚类数目的方法.数值实验验证本文所提的算法的可行性和有效性.  相似文献   

5.
《数理统计与管理》2019,(3):450-459
时间序列数据的聚类是对面板数据或多维时间序列根据序列相似度进行分组。聚在同一组的时间序列具有相近的模型参数,尤其是当序列较短时聚类后能够得到更精确的参数估计。现存的时间序列聚类方法的距离度量大都基于时间序列的线性假设,但是现实中时间序列通常是非线性的。本文提出了一种基于Copula距离测度的非线性时间序列数据的聚类方法,它利用了Copula函数获取时间序列的非线性相依结构。作为一种非参数的距离度量,基于Copula函数的距离度量能够识别动态相关结构的相似性。大量的模拟实验和实证研究验证了我们所提方法的有效性。  相似文献   

6.
针对采用经典划分思想的聚类算法以一个点来代表类的局限,提出一种基于泛化中心的分类属性数据聚类算法。该算法通过定义包含多个点的泛化中心来代表类,能够体现出类的数据分布特征,并进一步提出泛化中心距离及类间距离度量的新方法,给出泛化中心的确定方法及基于泛化中心进行对象到类分配的聚类策略,一般只需一次划分迭代就能得到最终聚类结果。将泛化中心算法应用到四个基准数据集,并与著名的划分聚类算法K-modes及其两种改进算法进行比较,结果表明泛化中心算法聚类正确率更高,迭代次数更少,是有效可行的。  相似文献   

7.
分别利用平均值和Hausdorff测度将基于距离的实数型Vague集的相似度方法扩展到区间值Vague集上,比较各种方法的优缺点.填补了i-v Vague值(集)的相似度方法研究的空白.并通过例子说明利用Hausdorff测度度量距离得到的相似度量方法比用区间中值得到的相似度效度高.  相似文献   

8.
《数理统计与管理》2019,(6):986-995
基于距离的函数型聚类分析包含曲线拟合和聚类两个独立步骤,最优曲线拟合未必有利于类别信息的提取和保留。根据曲线拟合与聚类分析的计算过程,重新梳理了函数型聚类算法;基于距离度量,提出了同时考虑拟合和聚类效果的函数型聚类一步法;在交替方向乘子法(ADMM)框架下推导并给出了迭代求解算法。模拟试验结果显示,该函数型聚类算法有助于提高聚类精度;针对北京市空气质量监测站点二氧化氮(NO_2)污染物小时浓度数据的实例验证分析表明,该函数型聚类算法对不同类别空气质量监测点具有更好的区分度。  相似文献   

9.
在本文中,首先利用区间数的EW-型度量探讨了模糊数空间上的积分度量问题,给出了模糊数空间上的一种新的积分度量-EW-型积分度量,并证明了其相关性质.其次,作为EW-型积分度量的应用,设计了对属性特征为三角模糊数的事物进行分类的模糊聚类算法.然后通过实例分析,说明了EW-型积分度量使模糊聚类算法实现的更简单易行,分类更加精细,合理有效等。  相似文献   

10.
基于距离度量的函数型数据聚类是目前函数型聚类分析方法的主要研究方向之一,而该方法主要是基于数值距离或曲线形态的单一角度来衡量函数型数据的相似性.为了解决这种单一性,提出一种同时兼顾函数型数据的数值距离和曲线形态的相似性度量方法—基于极值点偏差补偿的相似性度量,并给出实证分析,结果显示该方法比较有效.进一步提出一种多元函数型聚类分析方法—函数型熵权法,丰富了函数型聚类分析方法.  相似文献   

11.
符号数据分析是一种新兴的数据挖掘技术,区间数是最常用的一种符号数据。研究应用区间型符号数据的PCA方法来评价股票的市场综合表现问题。首先介绍了符号数据分析的基本理论。接下来研究了区间数据样本的经验描述统计量的计算,并基于经验相关矩阵,给出了区间主成分分析的算法,该算法最终得到区间数表达形式的主成分取值。最后选取上海证券交易市场20支股票在某一周上的交易数据,进行了实证研究,基于区间主成分得分的矩形图表示,将20支股票按其市场综合表现分成了四类。  相似文献   

12.
基于加权相似性的BIRCH聚类算法   总被引:1,自引:0,他引:1  
BIRCH方法是一个集成的层次聚类方法.它克服了凝聚层次聚类方法所面临的两个难点:可伸缩性和不能撤销前一步工作的问题.基于BIRCH聚类的多阶段聚类算法思想,结合基于权重的欧式距离度量和基于划分的K-means算法,提出了一种基于加权相似性的BIRCH聚类方法,并将方法应用在时间序列的气象数据分析中.  相似文献   

13.
Summary  In the last decade, factorial and clustering techniques have been developed to analyze multidimensional interval data (MIDs). In classic data analysis, PCA and clustering of the most significant components are usually performed to extract cluster structure from data. The clustering of the projected data is then performed, once the noise is filtered out, in a subspace generated by few orthogonal variables. In the framework of interval data analysis, we propose the same strategy. Several computational questions arise from this generalization. First of all, the representation of data onto a factorial subspace: in classic data analysis projected points remain points, but projected MIDs do not remains MIDs. Further, the choice of a distance between the represented data: many distances between points can be computed, few distances between convex sets of points are defined. We here propose optimized techniques for representing data by convex shapes, for computing the Hausdorff distance between convex shapes, based on an L 2 norm, and for performing a hierarchical clustering of projected data.  相似文献   

14.
针对协同过滤推荐系统具有数据的高稀疏,高维度,数据量大的特点,本文将灰色关联聚类与协同过虑推荐算法相结合,构建了灰色关联聚类的协同过滤推荐算法,将其应用到协同过滤推荐系统中,以解决数据具有高稀疏高维度的特性情况下的个性化推荐质量问题。首先,定义了推荐系统中的用户项目评分矩阵,用户灰色绝对关联度,用户灰色相似度,用户灰色关联聚类。然后,给出了灰色关联聚类的协同过滤推荐算法的计算方法和步骤,同时给出了评价推荐质量方法。最后,将本文算法与基于余弦,相关分析及修正的余弦等协同过滤推荐算法在大小不同的数据集下进行了实验,实验表明灰色关联聚类的协同过滤推荐算法相较于传统的协同过滤推荐方法具有推荐质量高,计算量小,对数据大小要求不高等优点,同时在推荐系统的冷启动,稳定性和计算效率方面也具有一定的优势。  相似文献   

15.
针对一类具有不确定性区间数多指标信息的聚类分析问题,依据传统的基于数值信息的FCM聚类算法的思路,提出了一种新的聚类分析算法。章首先描述了具有区间数多指标信息的聚类分析问题;其次给出了基于区间数多指标信息的关于最优划分和最优聚类中心确定的两个定理;然后给出了基于区间数多指标信息的FCM聚类算法的计算步骤。该算法的特点是聚类中心的表现形式为精确的数值,给出的两个定理说明了该聚类算法的收敛性。最后,通过给出一个算例说明了本给出的聚类算法。  相似文献   

16.
New clustering methods for interval data   总被引:3,自引:0,他引:3  
Summary  In this paper we propose two clustering methods for interval data based on the dynamic cluster algorithm. These methods use different homogeneity criteria as well as different kinds of cluster representations (prototypes). Some tools to interpret the final partitions are also introduced. An application of one of the methods concludes the paper.  相似文献   

17.
A clustering method is presented for analysing multivariate binary data with missing values. When not all values are observed, Govaert3 has studied the relations between clustering methods and statistical models. The author has shown how the identification of a mixture of Bernoulli distributions with the same parameter for all clusters and for all variables corresponds to a clustering criterion which uses L1 distance characterizing the MNDBIN method (Marchetti8). He first generalized this model by selecting parameters which can depend on variables and finally by selecting parameters which can depend both on variables and on clusters. We use the previous models to derive a clustering method adapted to missing data. This method optimizes a criterion by a standard iterative partitioning algorithm which removes the necessity either to ignore objects or to substitute the missing data. We study several versions of this algorithm and, finally, a brief account is given of the application of this method to some simulated data.  相似文献   

18.
In this paper, at first a new line symmetry (LS) based distance is proposed which calculates the amount of symmetry of a point with respect to the first principal axis of a data set. The proposed distance uses a recently developed point symmetry (PS) based distance in its computation. Kd-tree based nearest neighbor search is used to reduce the complexity of computing the closest symmetric point. Thereafter an evolutionary clustering technique is described that uses this new principal axis based LS distance for assignment of points to different clusters. The proposed GA with line symmetry distance based (GALS) clustering technique is able to detect any type of clusters, irrespective of their geometrical shape, size or convexity as long as they possess the characteristics of LS. GALS is compared with the existing genetic algorithm based K-means clustering technique, GAK-means, existing genetic algorithm with PS based clustering technique, GAPS, spectral clustering technique, and average linkage clustering technique. Five artificially generated data sets having different characteristics and seven real-life data sets are used to demonstrate the superiority of the proposed GALS clustering technique. In a part of experiment, utility of the proposed genetic LS distance based clustering technique is demonstrated for segmenting the satellite image of the part of the city of Kolkata. The proposed technique is able to distinguish different landcover types in the image. In the last part of the paper genetic algorithm is used to search for the suitable line of symmetry of each cluster.  相似文献   

19.
《Fuzzy Sets and Systems》2004,141(2):301-317
This paper presents fuzzy clustering algorithms for mixed features of symbolic and fuzzy data. El-Sonbaty and Ismail proposed fuzzy c-means (FCM) clustering for symbolic data and Hathaway et al. proposed FCM for fuzzy data. In this paper we give a modified dissimilarity measure for symbolic and fuzzy data and then give FCM clustering algorithms for these mixed data types. Numerical examples and comparisons are also given. Numerical examples illustrate that the modified dissimilarity gives better results. Finally, the proposed clustering algorithm is applied to real data with mixed feature variables of symbolic and fuzzy data.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号