首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
为提高具有先验知识样本的学习效率,本文在吸引子传播聚类模型基础上,引入半监督学习策略,并综合考虑样本动态信息变化,融合多指标面板数据,提出智能信息处理的多指标面板数据聚类模型。选取30家房地产业上市公司2009-2013年相关财务数据,利用此模型进行聚类和绩效评价分析。结果表明,智能信息处理的多指标面板数据聚类模型能更加有效地区分样本类别特征,可为上市公司绩效评价、金融管理与决策提供一个更加有效的方法和手段。  相似文献   

2.
传统的聚类方法由于无法提取样本和变量间的局部对应关系,并且当数据具有高维性和稀疏性时表现不佳,因此学者们提出了双向聚类,基于样本和变量间的局部关系,同时对样本和变量进行聚类,形成一系列子矩阵的聚类结果。近年来,双向聚类发展迅速,在基因分析、文本聚类、推荐系统等领域应用广泛。首先,对双向聚类方法进行梳理与归纳,重点阐述稀疏双向聚类、谱双向聚类和信息双向聚类三类方法,分析它们之间的区别和联系,并且介绍这三类方法在多源数据的整合分析、多层聚类、半监督学习以及集成学习上的发展现状和趋势;其次,重点介绍双向聚类在基因分析、文本聚类、推荐系统等领域的应用研究情况;最后,结合大数据时代的数据特征和双向聚类存在的问题,展望双向聚类未来的研究方向。  相似文献   

3.
针对多属性决策中指标的信息重复和不确定性问题,提出了一种基于改进的k-means聚类与粗糙集算法相结合的指标筛选方法。首先,定义样本的空间分布密度,实现初始聚类中心优化的k-means算法,对连续型指标进行离散化处理;然后利用粗糙集的相对约简原理进行指标约简,删除存在信息重复的冗余指标,并结合绿色经济指标体系构建的案例验证了该方法的合理性和有效性。  相似文献   

4.
本文给出平面有序样品的PP聚类方法,并对PP指标及P聚类的性质进行了理论讨论。  相似文献   

5.
针对一类具有不确定性区间数多指标信息的聚类分析问题,依据传统的基于数值信息的FCM聚类算法的思路,提出了一种新的聚类分析算法。章首先描述了具有区间数多指标信息的聚类分析问题;其次给出了基于区间数多指标信息的关于最优划分和最优聚类中心确定的两个定理;然后给出了基于区间数多指标信息的FCM聚类算法的计算步骤。该算法的特点是聚类中心的表现形式为精确的数值,给出的两个定理说明了该聚类算法的收敛性。最后,通过给出一个算例说明了本给出的聚类算法。  相似文献   

6.
基于数据流形结构的聚类方法及其应用研究   总被引:1,自引:0,他引:1  
随着信息社会的不断发展,人类已经进入了信息爆炸时代,海量的数据使数据处理变得繁琐复杂,因此如何对现有的高维数据降维、聚类,并在一定程度上消除高维数据中存在的噪声是解决该问题的关键.基于相关的理论知识采用先降维后聚类的步骤,把高维数据按照子空间结构和流形结构两种情况分类,运用稀疏子空间聚类、谱多流形聚类、K-manifolds方法进行建模求解,通过对各种方法的对比,得出谱多流形聚类方法运行速度快,聚类准确度高,是最具有一般性特征的模型.  相似文献   

7.
目前,适用于群落聚类分析中有序样本的聚类方法主要是“最优分割法”。本文提出了一种新的适用于群落有序样本的聚类方法,该法较最优分割法计算简便。  相似文献   

8.
建立了基于ALM和权值的LRR聚类改进模型,对高维数据进行分析,将其分为两个独立的子空间,并与传统k-means聚类模型进行对比,采用评价指标模型对聚类结果进行评价分析.提出的LRR聚类改进模型在正则项引入了权重系数w,可以更好地将扰动分开,求解结果及评价指标均有效地验证了其稳定性、精确度等性能均有所提升.建立了SMMC改进模型,对机器工件外部边缘轮廓进行分类.从求解结果可看出该模型非常适合用于处理混合多流形聚类问题,对于比较复杂的曲线有着很好的分类性能.按照数据预处理、数据建模分析、模型结果评价步骤,通过使用谱聚类分析和多流形学习方法,对所给出的高维数据进行分析和处理,并通过评价模型得出相应的评价指标,对数据的多流形结构进行了深入的研究和探讨.  相似文献   

9.
《数理统计与管理》2019,(3):450-459
时间序列数据的聚类是对面板数据或多维时间序列根据序列相似度进行分组。聚在同一组的时间序列具有相近的模型参数,尤其是当序列较短时聚类后能够得到更精确的参数估计。现存的时间序列聚类方法的距离度量大都基于时间序列的线性假设,但是现实中时间序列通常是非线性的。本文提出了一种基于Copula距离测度的非线性时间序列数据的聚类方法,它利用了Copula函数获取时间序列的非线性相依结构。作为一种非参数的距离度量,基于Copula函数的距离度量能够识别动态相关结构的相似性。大量的模拟实验和实证研究验证了我们所提方法的有效性。  相似文献   

10.
数据描述又称为一类分类方法,用于描述现有数据的分布特征,以研究待测试数据是否与该分布相吻合.首先简要叙述了基于核方法的数据描述原理,指出:选择适当的核函数以及与之对应的参数,数据描述可应用于模式聚类中,并且这种聚类方法具有边界紧致、易剔除噪声的优势.针对基于数据描述的聚类方法在确定类别数目和具体样本类别归属上所存在的问题,提出了基于搜索的解决方法,理论分析和实例计算都验证了该方法的可行性.最后将该聚类算法应用到企业关系评价中,取得了较为合理的结果.  相似文献   

11.
股指时间序列的相似性分析是当前金融学研究的热点之一。为了提高股指时间序列相似性分析的准确度,从标度不变性、多重分形及波动聚集性三个层面定义了标度理论的度量指标,并基于此对股指序列进行表示。将分割后的每一序列子区间看作时间点,则分割、表示后的不同股指序列构成一个多指标的面板数据。基于面板数据特征及指标相对重要性,提出了一种新型的多指标面板数据相似性度量函数——复合距离函数,用以度量股指时间序列的相似性。聚类结果表明,相较于其他两种方法,基于标度理论和复合距离函数的相似性度量方法能够显著提高相似性度量的准确度,同时具有较强的稳健性。  相似文献   

12.
叶莉  范高乐 《经济数学》2019,36(1):74-78
采用类比方法构建出一种面板数据曲线的棱镜模型,把时间横坐标与经济问题纵坐标加以角度化变换,选取恰当的经济变量作为棱镜的折射率和顶角,可将面板数据曲线用棱镜曲线进行再描绘.在碳排放问题上,列举大量的面板数据曲线作为具有棱镜曲线形状的证据,并给出聚类分析,解决了棱镜模型的应用问题,得出了存在经济折射定律的观点结论,从而为应用经济学研究提供一种全新视角的分析工具.  相似文献   

13.
有序判别分析新算法及其应用   总被引:1,自引:1,他引:0  
判别分析是用已知分类数据建模对未知分类数据进行判别的方法,所用数据和分类不分顺序。要对有序又有周期数据进行判别分析,就要探索有序判别的新方法。这种方法的分类应当是有序的,并且能够排除事物发展周期性的干扰。本文介绍多元数据有序判别分析新方法的原理、建模流程、应用流程和应用实例。这种判别分析将分类建模与判别归类分开。新方法对多元数据建模时在多类模型中建立滑移的多套子模型,应用时根据应用领域的知识对样本归属作初步预估,然后程序选择相关的子模型进行判别归类。这种方法解决了由于时间序列多元数据周期性造成的样本分类颠倒问题,为时间序列数据的分类和预测开辟了新途径,在实际应用中取得了良好的效果,解决了重大难题。  相似文献   

14.
The paper is devoted to statistical nonparametric estimation of multivariate distribution density. The influence of data pre-clustering on the estimation accuracy of multimodal density is analyzed by means of the Monte Carlo method. It is shown that the soft clustering is more advantageous than the hard one. While a moderate increase in the number of clusters also increases the calculation time, it considerably reduces the estimation error.  相似文献   

15.
模糊聚类分析方法在水平井开发指标预测中的应用   总被引:1,自引:1,他引:0  
模糊聚类分析方法在实际中应用很广泛,采用模糊聚类的方法,以胜利油田已经大量投产的水平井的数据为基础,将同类油藏中已投产水平井进行分类,然后根据新设计井的有关参数将其归到相应类中,根据同类中已投产井的有关开发指标对新设计水平井的指标进行预测,取得了较好效果.  相似文献   

16.
张璐  孔令臣  陈黄岳 《计算数学》2019,41(3):320-334
随着大数据时代的到来,各个领域涌现出海量数据且结构复杂.如变量的维数不同、尺度不同等.而现实中变量之间往往存在着不确定关系,经典的Pearson相关系数仅能反映两个同维变量间的线性相关关系,不足以完全刻画变量间的相关关系.2007年Szekely等提出的距离相关系数则能描述不同维数变量间的非线性关系.为了探索变量之间的内在信息,本文基于距离相关系数提出了最大距离相关系数法对变量聚类,且有超度量性和空间收缩性.为充分发挥距离相关系数的优势,对上述方法改进得到类整体距离相关系数法.该方法在刻画两类间相似性时,将每类中的所有变量合并成一个整体,再计算这两个不同维数的整体间的距离相关系数.最后,将类整体距离相关系数法应用到几个实际问题中,验证了算法的有效性.  相似文献   

17.
给出了完全次序一致性的定义和次序一致性矩阵的标准形式,并证明了满意一致性与次序一致性的等价性,然后给出了同时适用于互反与互补两种判断矩阵的完全次序一致性检验及改进的交互式算法,最后在次序一致性的基础上给出了模糊互补判断矩阵排序的一种新方法,并给出了一个算例.  相似文献   

18.
A clustering method is presented for analysing multivariate binary data with missing values. When not all values are observed, Govaert3 has studied the relations between clustering methods and statistical models. The author has shown how the identification of a mixture of Bernoulli distributions with the same parameter for all clusters and for all variables corresponds to a clustering criterion which uses L1 distance characterizing the MNDBIN method (Marchetti8). He first generalized this model by selecting parameters which can depend on variables and finally by selecting parameters which can depend both on variables and on clusters. We use the previous models to derive a clustering method adapted to missing data. This method optimizes a criterion by a standard iterative partitioning algorithm which removes the necessity either to ignore objects or to substitute the missing data. We study several versions of this algorithm and, finally, a brief account is given of the application of this method to some simulated data.  相似文献   

19.
Analyses of multivariate ordinal probit models typically use data augmentation to link the observed (discrete) data to latent (continuous) data via a censoring mechanism defined by a collection of “cutpoints.” Most standard models, for which effective Markov chain Monte Carlo (MCMC) sampling algorithms have been developed, use a separate (and independent) set of cutpoints for each element of the multivariate response. Motivated by the analysis of ratings data, we describe a particular class of multivariate ordinal probit models where it is desirable to use a common set of cutpoints. While this approach is attractive from a data-analytic perspective, we show that the existing efficient MCMC algorithms can no longer be accurately applied. Moreover, we show that attempts to implement these algorithms by numerically approximating required multivariate normal integrals over high-dimensional rectangular regions can result in severely degraded estimates of the posterior distribution. We propose a new data augmentation that is based on a covariance decomposition and that admits a simple and accurate MCMC algorithm. Our data augmentation requires only that univariate normal integrals be evaluated, which can be done quickly and with high accuracy. We provide theoretical results that suggest optimal decompositions within this class of data augmentations, and, based on the theory, recommend default decompositions that we demonstrate work well in practice. This article has supplementary material online.  相似文献   

20.
综合评价中一种新的指标选择方法   总被引:5,自引:0,他引:5  
文章首先概述了指标选择方法的现状,并指出现有方法在全面性和代表性上的问题。接着提出了一种用聚类分析、非参数检验等构成的指标动态筛选方法,有效的解决了全面性和代表性的问题。最后通过实例说明了该方法的应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号