首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 625 毫秒
1.
针对传统的谱聚类算法不适合处理多尺度问题,引入一种新的相似性度量—密度敏感的相似性度量,该度量可以放大不同高密度区域内数据点间距离,缩短同一高密度区域内数据点间距离,最终有效描述数据的实际聚类分布.本文引入特征间隙的概念,给出一种自动确定聚类数目的方法.数值实验验证本文所提的算法的可行性和有效性.  相似文献   

2.
股指时间序列的相似性分析是当前金融学研究的热点之一。为了提高股指时间序列相似性分析的准确度,从标度不变性、多重分形及波动聚集性三个层面定义了标度理论的度量指标,并基于此对股指序列进行表示。将分割后的每一序列子区间看作时间点,则分割、表示后的不同股指序列构成一个多指标的面板数据。基于面板数据特征及指标相对重要性,提出了一种新型的多指标面板数据相似性度量函数——复合距离函数,用以度量股指时间序列的相似性。聚类结果表明,相较于其他两种方法,基于标度理论和复合距离函数的相似性度量方法能够显著提高相似性度量的准确度,同时具有较强的稳健性。  相似文献   

3.
对区间型符号数据进行特征选择,可以降低数据的维数,提取数据的关键特征。针对区间型符号数据的特征选择问题,本文提出了一种新的特征选择方法。首先,该方法使用区间数Hausdorff距离和区间数欧氏距离度量区间数的相似性,通过建立使得样本点与样本类中心相似性最大的优化模型来估计区间型符号数据的特征权重。其次,基于特征权重构建相应的分类器来评价所估计特征权重的优劣。最后,为了验证本文方法的有效性,分别在人工生成数据集和真实数据集上进行了数值实验,数值实验结果表明,本文方法可以有效地去除无关特征,识别出与类标号有关的特征。  相似文献   

4.
区间型符号数据是一种重要的符号数据类型,现有文献往往假设区间内的点数据服从均匀分布,导致其应用的局限性。本文基于一般分布的假设,给出了一般分布区间型符号数据的扩展的Hausdorff距离度量,基于此提出了一般分布的区间型符号数据的SOM聚类算法。随机模拟试验的结果表明,基于本文提出的基于扩展的Hausdorff距离度量的SOM聚类算法的有效性优于基于传统Hausdorff距离度量的SOM聚类算法和基于μσ距离度量的SOM聚类算法。最后将文中方法应用于气象数据的聚类分析,示例文中方法的应用步骤与可操作性,并进一步评价文中方法在解决实际问题中的有效性。  相似文献   

5.
《数理统计与管理》2019,(3):450-459
时间序列数据的聚类是对面板数据或多维时间序列根据序列相似度进行分组。聚在同一组的时间序列具有相近的模型参数,尤其是当序列较短时聚类后能够得到更精确的参数估计。现存的时间序列聚类方法的距离度量大都基于时间序列的线性假设,但是现实中时间序列通常是非线性的。本文提出了一种基于Copula距离测度的非线性时间序列数据的聚类方法,它利用了Copula函数获取时间序列的非线性相依结构。作为一种非参数的距离度量,基于Copula函数的距离度量能够识别动态相关结构的相似性。大量的模拟实验和实证研究验证了我们所提方法的有效性。  相似文献   

6.
《数理统计与管理》2019,(6):986-995
基于距离的函数型聚类分析包含曲线拟合和聚类两个独立步骤,最优曲线拟合未必有利于类别信息的提取和保留。根据曲线拟合与聚类分析的计算过程,重新梳理了函数型聚类算法;基于距离度量,提出了同时考虑拟合和聚类效果的函数型聚类一步法;在交替方向乘子法(ADMM)框架下推导并给出了迭代求解算法。模拟试验结果显示,该函数型聚类算法有助于提高聚类精度;针对北京市空气质量监测站点二氧化氮(NO_2)污染物小时浓度数据的实例验证分析表明,该函数型聚类算法对不同类别空气质量监测点具有更好的区分度。  相似文献   

7.
分析了函数型数据主成分分析的原理。在此基础上,提出了一种函数型数据的聚类分析方法,以及在低维空间对原始高维数据进行直观表达的方法。给出了函数型数据的距离定义,并分析了这种距离的定义与欧氏距离的关系。提出函数型数据聚类分析的新方法:1)通过变换把离散数据转化为函数数据;2)进行函数型主成分分析;3)利用提取的前几个主成分构成低维空间,在该低维空间中,采用普通的聚类方法进行聚类分析。采用人体肢体多普勒超声血管造影的数据对所提出的方法的合理性进行验证。结果表明该方法可以有效地对函数型数据进行分类,分类结果与专家临床结论相符,因而有助于临床上对样本做客观判断。该方法不依赖专家的经验判断,且计算过程简便,易于计算机实现及临床应用。  相似文献   

8.
对于传统K近邻算法只适用于数值属性数据类型的问题,提出了一种基于对混合属性数据中的不同属性列赋予不同权值的K近邻算法(K Nearest Neighbor for Mixed-attribute Data,KNNM),使新的K近邻算法能够适用于混合属性数据.由于混合数据间数值属性部分与分类属性部分对整体相似性度量的贡献率不同,又各分量对其所属的属性部分的相似性度量的贡献率不同的特点.提出了考虑数值属性部分与分类属性部分作为整体对混合属性数据间的相似性度量的贡献率,并考虑不同属性数据的各分量对其所属的数据间的相似性度量的贡献率的向量参数计算方法,以此提出了一种适用于混合属性数据的K近邻方法.在5个UCI数据集上的实验结果表明KNNM算法在准确率,宏平均召回率,宏平均精度、宏平均值和ROC均优于传统K近邻算法,以此说明KNNM方法在混合属性数据上的适用性与有效性.  相似文献   

9.
基于有限维离散数据的传统聚类分析并不能直接用于函数型数据的分类挖掘。本文针对函数型数据的稀疏性和无穷维特殊性展开讨论,在综合剖析现有函数型聚类方法优势与不足的基础上,依据聚类指标的信息量差异重构加权主成分距离为函数相似性测度,提出了一种函数型数据的自适应权重聚类分析。相对同类函数型聚类算法,新方法的核心优势在于:(1)自适应赋权的距离函数体现了聚类指标分类效率的差异,并且有充分的理论基础保证其必要性和客观合理性;(2)基于有限维离散数据的聚类实现了无限维连续函数的聚类,能够显著降低计算成本。实证检验表明,新方法的分类正确率明显提高,能够有效解决传统聚类算法极端情形下的失效问题,有着复杂函数型数据分类问题下的灵活性和普遍适用性。  相似文献   

10.
多元分析中的许多距离度量方法,有一个共同的缺点,是不能反映多元定性数据间的实际距离.为合理反映这类数据间的实际距离,本文首先根据多维定性数据的特点,提出了一种新的距离度量方法,克服了原有距离度量的缺点.经充分论证,是一种能够合理反映多维定性数据间距离的方法.另外,由于这类数据是来自非正态总体的高维数据,因此,在其距离度量中,还引用了投影寻踪的一些思想.同时,本文还利用这种新的距离,对多维定性数据的聚类分析,提出了具体的确实可行的方法.并为其编制了一整套 FORTRAN 程序.最后,对一些实际问题,以实际调查数据为依据,运用编好的软件,进行了具体分析,得出了一些有用的结果.  相似文献   

11.
高维空间中数据的相似性度量   总被引:5,自引:0,他引:5  
高维空间中数据之间的相似性度量是目前数据挖掘、信息处理与检索等领域所面临的一个重要问题.文章在总结分析了高维数据的特点以及现有的一些度量方法的基础上,提出了一种新的度量方式,该方法在对高维数据进行相似性度量之前,首先对原始数据空间进行网格划分.文章的最后对其有效性作了定量分析,实验证明,该方式是行之有效的.  相似文献   

12.
曲线拟合的数值磨光方法   总被引:9,自引:0,他引:9  
<正> 我们针对外形自动设计提出的曲线拟合问题提出一种方法——数值磨光方法.实现的步骤大体上是:首先对原设计型值(离散数据)进行修改得到我们称呼的“盈亏型值”,再将盈亏型值点连成折线,然后对此折线函数以δ-spline(样条)函数为核进行积分便得到拟合曲线的表达式,这吋拟合曲线是一种样条.样条函数的次数 k 是任意的,但我们主要针对实用上常用的 k=2和3的情形讨论.  相似文献   

13.
基于差异关系案例推理的关系价值度量研究   总被引:1,自引:0,他引:1  
关系价值度量的研究还非常少,少量研究也仅停留在理论公式阶段,缺乏操作层面的度量方法。本文将关系价值度量看作是一个决策问题,提出一种基于差异案例推理的方法进行关系价值的度量。首先分析了将案例推理用于关系价值度量的基本思想;在实施相似性度量阶段,用问题案例和历史案例在各个关系价值度量指标上的差异关系来替代经典的欧氏距离,并给出了基于距离比例的无差异关系、弱差异关系和强差异关系定义,通过对三种差异关系对应的差异指数进行集成实现问题案例和历史案例的相似性度量。  相似文献   

14.
在度量两个集合时,用相似性测度来表示两集合的相似性程度.在度量区间直觉模糊集的相似性程度时,现有的很多方法都没有把犹豫度考虑在内.针对这个问题,根据区间直觉模糊集理论,在Szmidt的区间直觉模糊集的海明距离、规范化海明距离、欧几里得距离、规范化欧几里得距离的基础上.定义了基于Szmidt的区间直觉模糊集的加权海明距离和基于Szmidt的区间直觉模糊集的加权欧几里得距离,分别包含了隶属度,非隶属度和犹豫度,并给出了定理和证明.然后定义了两种区间直觉模糊集的相似性测度.最后将这两种相似性测度应用到模式识别领域.  相似文献   

15.
线性混合模型在纵向数据分析中有广泛应用,应用点删除法研究纵向数据线性混合模型影响分析问题.采用的影响度量是基于似然函数构造的广义Cook距离,推导出两种广义Cook距离并用于实际数据分析和统计模拟分析,实际数据分析和统计模拟分析结果都说明该方法是行之有效的.  相似文献   

16.
提出了一种新的vague值相似性度量方法.与现有的相似性度量方法相比,方法具有区分度好、计算量小和满足相似性度量的基本性质.实践证明,提出的vague值相似度的度量方法是比较合理的.  相似文献   

17.
针对传统DBSCAN算法对高维数据集聚类效果不佳且参数的选取敏感问题,提出一种新的基于相似性度量的改进DBSCAN算法.该算法构造了测地距离和共享最近邻的数据点之间的相似度矩阵,克服欧式距离对高维数据的局限性,更好地刻画数据集的真实情况.通过分析数据的分布特征来自适应确定Eps和MinPts参数.实验结果表明,所提GS-DBSCAN算法能够有效地对复杂分布的数据进行聚类,且在高维数据的聚类准确率高于对比算法,验证了算法的准确性和可行性.  相似文献   

18.
基于ICA的时间序列聚类方法及其股票数据分析中的应用   总被引:1,自引:0,他引:1  
时间序列聚类分析是时间序列数据挖掘中的重要任务之一,通常由于时间序列数据的特殊结构,导致一般的聚类算法不能直接应用于时间序列数据.本文提出了一种基于独立成分分析与改进K-均值算法相结合的时间序列聚类算法,该算法首先利用独立成分分析对时间序列数据进行特征提取,然后利用改进K-均值聚类算法完成对时间序列特征数据的聚类分析,从而得到了一种新的基于特征的时间序列聚类方法.为了验证该方法的有效性和可行性,将其应用于实际的股票时间序列数据聚类分析中,取得了较好的数值结果.  相似文献   

19.
Vague值数据是重要的符号数据,也是处理一类模糊问题的手段.基于误差传递的理论,提出了Vague值数据的回归分析方法.在分析原有Vague集相似性测度的基础上,提出了一种新的Vague集相似性测度,并以此来评价Vague值数据的回归模型.通过数值事例计算,验证了该回归模型的有效性.  相似文献   

20.
迹距离相干度量是基于迹范数提出的量化相干的一种度量.然而,很难给出一般量子态迹距离相干度量的表达式并且找到对应的最近非相干态.通过最优化方法给出了一类d×d量子态的迹距离相干度量,并且证明了这类量子态的最近非相干态就是由该量子态去掉所有非对角元素得到的对角矩阵.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号