共查询到20条相似文献,搜索用时 156 毫秒
1.
统计深度函数及其应用 总被引:12,自引:0,他引:12
次序统计量在一维统计数据分析中起着很重要的作用.多年来,人们一直在商维数据处理和分析中寻找“次序统计量”,却没有得到很满意的结果.由于缺少自然而有效的高维数据排序方法,因而象一维“中位数”的概念很难推广到高维.统计深度函数则提供了高维数据排序的一种工具,其主要思想是提供了一种从高维数据中心(最深点)向外的排序方法.不仅如此,统计深度函数已经在探索性高维数据分析,统计判决等方面带给我们一种全新的前景,并在工业、工程、生物医学等诸多领域得到很好的应用.本文介绍了统计深度函数概念及其应用,讨论了位置深度函数的标准,介绍了几种常用的统计深度函数.给出了由深度函数特别是由投影深度函数所诱导的位置和散布阵估计,介绍了它们的诸多优良性质,如极限分布,稳健性和有效性.由于在大多数场合下,高崩溃点的估计不是较有效的估计,而由统计深度函数所诱导的估计具有多元仿射不变性,并能提供理想的稳健性与有效性之间的平衡,本文还讨论了基于深度的统计检验和置信区域,介绍了统计深度函数的其他应用,如多元回归、带有变量误差模型、质量控制等,以及实际计算问题.指出了统计深度函数领域有关进一步的工作和研究方向. 相似文献
2.
由于主成分分析是一种实用的多元统计分析方法,具有高阶降维作用,能消除样本指标之间的相关性,在保持样本主要信息的前提下,提取少量具有代表性的主成分,所以近年来在多指标评价上得到越来越广泛的应用.本文采用多元统计中的主成分分析方法对天山北坡经济带内23个市(县)具有代表性的指标进行主成分分析,同时对综合主成分得分给出了排序,并给出了综合评价,提出了相关改进建议.新疆是丝绸之路经济带上的明珠,而天山北坡经济带是新疆经济最发达的地区,在全疆有着举足轻重的影响,由此可见,对其发展进行有效的评价具有重大的实际意义. 相似文献
3.
4.
主成分分析就是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法.通过对伊犁州直属10个县市的18项指标基于主成分分析进行了定量分析,得到了10个县市的综合实力排名,并指出了各县市经济发展不平衡的原因,给出了相应参考政策. 相似文献
5.
《数学的实践与认识》2015,(7)
统计DNA序列中64种包含3个碱基字符串的频率,基于生物学知识,以此作为区分不同类别DNA序列的特征.对此频率数据使用主成分分析和Fisher判别两种方法进行数据降维操作,根据降维后的数据建立距离判别模型,用训练样本回判,检验模型判别效果,最后对未知类别序列进行判别归类,比较分类结果. 相似文献
6.
唐诚 《数学的实践与认识》2015,(7):209-213
统计DNA序列中64种包含3个碱基字符串的频率,基于生物学知识,以此作为区分不同类别DNA序列的特征.对此频率数据使用主成分分析和Fisher判别两种方法进行数据降维操作,根据降维后的数据建立距离判别模型,用训练样本回判,检验模型判别效果,最后对未知类别序列进行判别归类,比较分类结果. 相似文献
7.
8.
戈德菲尔德匡特检验的推广 总被引:2,自引:1,他引:1
在大多数经济现象中,回归模型的随机扰动项并不具有同方差性,它可能随观察值的不同而变化。对这种异方差模型进行最小二乘估计,会产生严重的后果,因此研究异方差的检验方法具有重要意义。由于戈德菲尔德 匡特检验方法只适用于一个自变量,因此,本文对G Q检验进行了推广,说明在多变量的情况下,可以利用主成分对样本数据进行排序,从而解决了对多变量数据的排序问题,使戈德菲尔德 匡特异方差检验得到了推广,并举实例说明。 相似文献
9.
10.
特征筛选方法是处理超高维数据的一种快速有效的降维方法.针对超高维判别分类数据,提出一种改进的超高维特征筛选方法,方法不需要特定的模型假定;可以处理多分类响应变量情形;可适用于离散型或连续型协变量情形;对服从重尾分布的协变量,方法仍具有较好的稳健性.从理论上证明了所提出特征筛选方法满足确定筛选性和指标排序相合性,并通过数值模拟和实例分析在有限样本条件下验证了方法的有效性. 相似文献
11.
分析了函数型数据主成分分析的原理。在此基础上,提出了一种函数型数据的聚类分析方法,以及在低维空间对原始高维数据进行直观表达的方法。给出了函数型数据的距离定义,并分析了这种距离的定义与欧氏距离的关系。提出函数型数据聚类分析的新方法:1)通过变换把离散数据转化为函数数据;2)进行函数型主成分分析;3)利用提取的前几个主成分构成低维空间,在该低维空间中,采用普通的聚类方法进行聚类分析。采用人体肢体多普勒超声血管造影的数据对所提出的方法的合理性进行验证。结果表明该方法可以有效地对函数型数据进行分类,分类结果与专家临床结论相符,因而有助于临床上对样本做客观判断。该方法不依赖专家的经验判断,且计算过程简便,易于计算机实现及临床应用。 相似文献
12.
13.
14.
On the structure of the stochastic process of mortgages in Spain 总被引:1,自引:1,他引:0
P. R. Bouzas A. M. Aguilera M. J. Valderrama N. Ruiz-Fuentes 《Computational Statistics》2006,21(1):73-89
Summary The number of mortgages in Spain is a counting process that can be modelled as a doubly stochastic Poisson process (DSPP).
A modelling method for the intensity of a DSPP is proposed. A first step consists on estimating discrete sample paths of it
from observed ones of the DSPP, then a continuous modelling is derived by means of Functional Principal Component Analysis.
The method is validated by a simulation. Finally, it is applied to the real process of the mortgages in Spain discussing the
interpretation of the principal components and factors. 相似文献
15.
Paolo Giordani 《Journal of multivariate analysis》2010,101(3):568-582
Data are often affected by uncertainty. Uncertainty is usually referred to as randomness. Nonetheless, other sources of uncertainty may occur. In particular, the empirical information may also be affected by imprecision. Also in these cases it can be fruitful to analyze the underlying structure of the data. In this paper we address the problem of summarizing a sample of three-way imprecise data. In order to manage the different sources of uncertainty a twofold strategy is adopted. On the one hand, imprecise data are transformed into fuzzy sets by means of the so-called fuzzification process. The so-obtained fuzzy data are then analyzed by suitable generalizations of the Tucker3 and CANDECOMP/PARAFAC models, which are the two most popular three-way extensions of Principal Component Analysis. On the other hand, the statistical validity of the obtained underlying structure is evaluated by (nonparametric) bootstrapping. A simulation experiment is performed for assessing whether the use of fuzzy data is helpful in order to summarize three-way uncertain data. Finally, to show how our models work in practice, an application to real data is discussed. 相似文献
16.
Local polynomial fitting for univariate data has been widely studied and discussed, but up until now the multivariate equivalent has often been deemed impractical, due to the so-called curse of dimensionality. Here, rather than discounting it completely, we use density as a threshold to determine where over a data range reliable multivariate smoothing is possible, whilst accepting that in large areas it is not. The merits of a density threshold derived from the asymptotic influence function are shown using both real and simulated data sets. Further, the challenging issue of multivariate bandwidth selection, which is known to be affected detrimentally by sparse data which inevitably arise in higher dimensions, is considered. In an effort to alleviate this problem, two adaptations to generalized cross-validation are implemented, and a simulation study is presented to support the proposed method. It is also discussed how the density threshold and the adapted generalized cross-validation technique introduced herein work neatly together. 相似文献
17.
群体AHP方法在复杂系统易损性分析中的应用 总被引:1,自引:0,他引:1
群体层次分析法(Group AHP)是专家群体评判意见的综合量化方法,本文讨论了该方法在系统易损性分析中的应用,并针对群体层次分析法专家意见合成问题,提出了基于主成分分析方法计算各专家客观权重,并根据该权重合成专家评判意见的方法.应用结果表明,该方法能更好地克服人为主观判断及偏好给决策带来的影响,为复杂系统易损性定量评估提供了有效的技术途径. 相似文献
18.
组合评价的建模技术可以降低复杂系统的信息不完备性,而把模糊理论与组合思想统一在一起的模糊组合评价方法,对复杂系统的评价更贴近现实.首先利用中国上市公司2012年第一季度财务报表的有关数据,分别采用TOPSIS法、主成分分析法和因子分析法,对沪深股市中主营业务是电力的53家上市公司的经营业绩进行了综合评价和排序;其次,用非参数的Spearman等级相关系数检验法,验证了三种评价方法的一致性;最后,建立了模糊Borda组合评价模型,应用该模型对这53家企业的经营绩效重新进行了综合评价和排序,其结果更加科学、合理. 相似文献
19.
多项式回归的建模方法比较研究 总被引:18,自引:0,他引:18
在实际工作中,人们在采用回归模型解释因果变量间的相关关系时,经常会遇到自变量之间存在幂乘关系的情况。在这种情况下,多项式回归模型成为一个合理的选择。由于多项式回归模型中自变量之间存在较强的相关关系,采用普通最小二乘回归方法来估计变量的回归系数,则会存在较大的误差。在本文中,为了提高多项式回归模型的预测准确性和可靠性,提出使用主成分分析、偏最小二乘回归建模,并采用仿真数据来比较它们的异同。 相似文献
20.
Convex approximations to sparse PCA via Lagrangian duality 总被引:1,自引:0,他引:1
We derive a convex relaxation for cardinality constrained Principal Component Analysis (PCA) by using a simple representation of the L1 unit ball and standard Lagrangian duality. The resulting convex dual bound is an unconstrained minimization of the sum of two nonsmooth convex functions. Applying a partial smoothing technique reduces the objective to the sum of a smooth and nonsmooth convex function for which an efficient first order algorithm can be applied. Numerical experiments demonstrate its potential. 相似文献