首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在处理高维数据的检验和分类等问题时,涉及到协方差矩阵的估计.而在高维数据领域,协方差矩阵估计的精度将对诸如检验和分类等问题起到非常重要的影响.主要考虑多样本条件下协方差矩阵的比率相合性问题,证明了两样本和三样本情况下的高维数据协方差矩阵比率相合性.  相似文献   

2.
PP 型拟合优度检验   总被引:1,自引:0,他引:1  
摄影寻踪(Projection Pursuit,简称PP)是一种新兴的用来处理高维数据的统计方法,其主要思想是通过极大化某个投影指标(通常是分布函数的泛函)来寻找低维投影,通过对其低维投影数据的研究来发现高维数据的性质.PP 方法自首次提出,已用于处理一些非正态多维数据分析问题,如回归、判别、聚类、密度估计等.  相似文献   

3.
由于高维数据的稀疏性,导致高维空间中的数据处理方法与低维空间中存在显著差异,合理的变量选择方法是解决高维数据问题的一个前提.从理论方面探讨Logistic模型中参数的MCP方法的Oracle性质,证明了MCP估计具有良好的理论性质.在搜索引擎广告转化率预测模型中,对比了几种不同变量选择方法的预测效果.结果表明MCP方法在处理高维稀疏数据时,准确率最高.通过方法筛选出若干显著影响广告转化率的特征变量,为广告主制定广告策略提供相应的理论依据.  相似文献   

4.
一、引言投影寻踪法(Projection pursuit techniques)是近几年发展起来的处理高维数据的非参数方法.对于非正态的高维数据,特别是某些不具有线性结构的数据,已有的分析方法效果不够好,用投影寻踪法往往能取得较好的效果(参见[1]、[2]及其有关引文)。它也被用来解决具有近似的参数模型的数据分析问题,得到具有稳健性的统计方法.它的基  相似文献   

5.
对医疗费用的建模分析与合理预测是医疗保险费用厘定的基础与根本.医疗费用中的高维附加信息在长期预测中具有重要作用.然而,传统的统计建模方法不适用于处理高维纵向数据下的医疗费用.本文提出部分线性多指标可加模型,对具有高维特征的纵向医疗费用数据进行拟合与预测,并且使用两种不同的降维估计方法进行模型估计,并将该模型应用于一组含...  相似文献   

6.
最近研究表明,张量是多维数据的自然表示形式,能够保持数据的内在结构,而张量分解和特征值分析是处理和分析高维数据的潜在工具.张量的数学基础和基于张量的数据分析技术都得到了极大发展.本文对高阶张量分析及其在图像和视频处理中的应用进行综述,并指出一些可能的研究问题.  相似文献   

7.
本文研究高维数据下两样本均值的检验问题.基于Hotelling's T~2检验,我们提出了适用于高维数据均值检验的复合Hotelling's T~2检验统计量,证明了其渐近正态性并研究了其渐近功效.我们通过模拟和实例分析展示了该检验在有限样本下相比现有高维检验方法的优良性.  相似文献   

8.
PP 方法是近年来兴起的一种处理高维数据的统计方法。它最早是由 Kruskal(1969,1972)提出来的。PP 的基本思想是把高维数据投影到低维空间中去。这样,通过对某些感兴趣的投影方向上的数据处理来解决高维问题,因而 PP 方法中最根本的问题是投影方向的选择以及选定方向后如何导出高维结构。PP 是 Projection Pursuit 的缩写,一般译为投影寻踪。  相似文献   

9.
针对传统DBSCAN算法对高维数据集聚类效果不佳且参数的选取敏感问题,提出一种新的基于相似性度量的改进DBSCAN算法.该算法构造了测地距离和共享最近邻的数据点之间的相似度矩阵,克服欧式距离对高维数据的局限性,更好地刻画数据集的真实情况.通过分析数据的分布特征来自适应确定Eps和MinPts参数.实验结果表明,所提GS-DBSCAN算法能够有效地对复杂分布的数据进行聚类,且在高维数据的聚类准确率高于对比算法,验证了算法的准确性和可行性.  相似文献   

10.
本文借助"概率元"工具讨论了高维、分量类型不一致的随机变量的分布描述方法,借助"随机模拟"技术和贝叶斯方法讨论了过程数据的处理方法,希望借此给当下统计教学一些补充,突出统计学在大数据时代的地位.  相似文献   

11.
随着大数据时代的到来,在经济学、金融学和生物医学等众多研究领域中频繁收集到高维数据.高维数据的特征之一是变量维数p随着样本量n的增加而变大且通常会超过样本量,同时,异常值也容易出现在高维数据中.因此,如何克服异常值给高维统计推断带来的影响,从而得到更精确的模型,是目前统计学研究的热点问题之一.本文是对高维线性模型下的稳健变量选择方法进行综述.具体地,首先介绍评估稳健性的三个指标:影响函数、崩溃点和最大偏差.其次着重介绍了稳健变量选择方法,包括响应变量含有异常值,响应变量和协变量都含有异常值,高崩溃点且高效的变量选择方法.紧接着介绍相关算法,通过模拟和实例比较不同变量选择方法.最后,简要探讨了高维稳健有效变量选择方法存在的问题及未来的可能发展方向.  相似文献   

12.
文章基于可加风险模型假设,采用偏最小二乘回归和有监督的主成分回归两种投影降维方法,研究了高维协变量情况下现状数据的降维问题。通过深入地模拟试验,对比两种降维方法在高维相关现状数据的生存预测方面的表现,最后将两种降维方法结合实际数据集进行实证分析。模拟和实证结果表明这两种降维方法能很好地处理具有高维、强相关协变量的小样本数据集,比如基因微阵列数据。在后续的研究中,有望将现状数据扩展至其它更一般的区间删失数据。  相似文献   

13.
提出了变系数模型条件分位估计的一种新方法.变系数模型已经成为经济学、流行病学、纵向数据和医学领域处理高维数据的有力工具.该模型有助于探测数据的动态特征、降低模型偏差、避免高维灾难,同时便于解释.尽管关于变系数模型条件均值的估计已经有很多文章,但关于变系数模型条件分位的估计方面的文章相对较少.文中提出了一种有效的适应性分位回归方法来诊断出齐性邻域,进行局部自适应窗宽选择和局部线性逼近,同时给出了估计量的风险界和最优窗宽的自动选择准则.模拟研究说明了所提出估计方法的效果.  相似文献   

14.
建立了基于ALM和权值的LRR聚类改进模型,对高维数据进行分析,将其分为两个独立的子空间,并与传统k-means聚类模型进行对比,采用评价指标模型对聚类结果进行评价分析.提出的LRR聚类改进模型在正则项引入了权重系数w,可以更好地将扰动分开,求解结果及评价指标均有效地验证了其稳定性、精确度等性能均有所提升.建立了SMMC改进模型,对机器工件外部边缘轮廓进行分类.从求解结果可看出该模型非常适合用于处理混合多流形聚类问题,对于比较复杂的曲线有着很好的分类性能.按照数据预处理、数据建模分析、模型结果评价步骤,通过使用谱聚类分析和多流形学习方法,对所给出的高维数据进行分析和处理,并通过评价模型得出相应的评价指标,对数据的多流形结构进行了深入的研究和探讨.  相似文献   

15.
高维数据的模型选择是当今统计学研究的一个热点问题,但关于高维纵向数据方面的模型平均却少见研究,文章提出了一种利用删组交叉验证准则对高维纵向数据进行模型平均估计的方法,在最小化预测残差意义下,以删组交叉验证为准则,证明了其渐近最优性,并通过模拟研究表明,该模型平均方法在估计效果上要优于其它一些传统的模型选择和平均方法.  相似文献   

16.
针对P2P机构信用风险预警问题,提出了基于大数据思维的信用评估体系,采用基于动态特征的广义径向基神经网络对228家P2P机构12个月的高维数据指标进行信用风险评估.应用设计的广义径向基神经网络和BP神经网络进行对比,准确率分别为91.9%、85.2%,广义径向基神经网络在处理实时高维数据时表现出良好的性能,可以对我国P2P机构信用风险进行预警.同时深入对预警机构进行数据分析发现,如果企业资金流动性较差、净流入低也可能存在较高风险,企业应依据小额分散的借贷原则,降低借款集中度可以有效防范企业信用风险.  相似文献   

17.
高维数据背景下,数据维度和噪声的影响使得传统的GARCH模型不再适用.针对对角GARCH(goGARCH)模型的不足,将高维稀疏建模法应用到其估计过程中,提出了高维稀疏对角GARCH(HDS-goGARCH)模型.HDS-goGARCH模型通过引入惩罚函数,将一些不重要变量的回归系数压缩为零,来精简模型,达到降维的目的.通过模拟和实证研究发现:较传统的goGARCH模型而言,HDS-goGARCH模型明显提高了高维协方差阵的估计和预测效率;并且将其应用在投资组合时:在收益一定的情况下,由HDS-goGARCH模型所构造的投资组合的风险更小.  相似文献   

18.
针对高维稀疏数据预处理过程,提出了运用两阶段协同聚类算法(MTSCCA)来获得质量较好的高维稀疏对象-属性的子空间,并通过实证研究证明了算法的有效性.  相似文献   

19.
将投影寻踪动态聚类模型引入到房地产投资环境评价方法中.针对房地产投资环境评价所面临的多因素高维复杂性问题,该模型能够完全根据样本数据特性将高维数据通过投影向量投影到低维数据,同时实现对低维数据的排序和自动聚类分析,进而通过研究低维数据以实现对高维数据的研究.最后通过辽宁省工业地产投资环境评价实例验证了该模型在房地产投资环境评价中的适用性.  相似文献   

20.
高维空间中数据的相似性度量   总被引:5,自引:0,他引:5  
高维空间中数据之间的相似性度量是目前数据挖掘、信息处理与检索等领域所面临的一个重要问题.文章在总结分析了高维数据的特点以及现有的一些度量方法的基础上,提出了一种新的度量方式,该方法在对高维数据进行相似性度量之前,首先对原始数据空间进行网格划分.文章的最后对其有效性作了定量分析,实验证明,该方式是行之有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号