首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 174 毫秒
1.
研究典型相关分析的原理、典型成分的计算方法及计算步骤.把两组变量X与Y转化为具有最大相关性的若干对典型成分,直到两组变量的相关性被分解.通过典型相关系数及其显著性检验.选择典型成分分析两组变量的相关性.实例表明只有第一个典型相关系数能通过显著性检验,而其它两个典型相关系数显著为零,故应选取第一对典型成分F1和G1做分析...  相似文献   

2.
缺失数据处理是数据挖掘领域中进行数据预处理的一个重要环节,由于成分数据特殊的几何性质,传统的缺失值填补方法不能直接用于这种类型的数据.因此,对成分数据而言,缺失值的填补具有十分重要的意义.为了解决这个问题,本文利用了成分数据和欧氏数据之间的关系,提出了一种基于随机森林的成分数据缺失值迭代填补法,该方法的实施和评估采用模拟和真实的数据集.实验结果表明:新的填补方法可广泛应用于多种类型的数据集且具有较高准确性.  相似文献   

3.
针对存在缺失数据的超高维可加分位回归模型,本文提出一种有效的变量筛选方法.具体而言,将典型相关分析的思想引入到最优变换的最大相关系数,通过协变量和模型残差最优变换后的最大相关系数重要变量的边际贡献进行排序,从而进行变量筛选.然后,在筛选的基础上,利用稀疏光滑惩罚进一步做变量选择.所提变量筛选方法有三点优势:(1)基于最优变换的最大相关可以更全面的反映响应变量对协变量的非线性依赖结构;(2)在迭代过程中利用残差可以获取模型的相关信息,从而提高变量筛选的准确度;(3)变量筛选过程和模型估计分开,可以避免对冗余协变量的回归.在适当的条件下,证明了变量筛选方法的确定性独立筛选性质以及稀疏光滑惩罚下估计量的稀疏性和相合性.同时,通过蒙特卡罗模拟给出了所提方法的表现并通过一组小鼠基因数据说明了所提方法的有效性.  相似文献   

4.
《数理统计与管理》2019,(5):849-857
传统的主成分聚类方法往往会因对离群值比较敏感而导致聚类的结果与实际不相符。针对这一现象,本文运用稳健统计量对传统主成分聚类方法进行修正,构建出稳健主成分聚类分析算法,以克服离群值对模型计算结果的影响。由模拟和实证分析的计算结果可得知:当数据中没有离群值时,稳健主成分聚类方法的结果与传统主成分聚类方法一致;但当数据中有离群值时,相对于传统主成分聚类方法而言,稳健主成分聚类方法能有效抵抗离群值的影响,具有良好的抗干扰性和高抗差性。  相似文献   

5.
论带有趋势变化的变量的相关:数值试验   总被引:1,自引:0,他引:1  
当计算相关的二个变量都包含有明显的趋势变化成分时,原变量之间的相关特征可能被歪曲(夸大或者缩小).对此问题进行了数值试验,结果表明,变量带有性质相反的趋势变化,会使这二个变量之间的相关系数减小(正相关的数值减小,负相关被夸大).变量带有性质相同的趋势变化,会使这二个变量之间的相关系数增加(正相关被夸大,负相关数值变小).数值试验还表明,趋势变化对相关的影响具有可交换性.只要不改变它们趋势变化的数值,它们叠加的变量互相交换,影响相关系数的后果是一样的;研究还指出,二个变量有相同的变化趋势时,对相关的影响会更大些.给出了实例.  相似文献   

6.
本文提出了恢复Gauss关联结构(copula)图模型的充分降维方法,该方法在超高维情形下具有很高的计算效率.本质上,充分降维是通过对利用非参数方法估计的相关系数矩阵进行截断来实现的.本文给出了所提方法的理论性质,保证其所估计的边集合以概率趋于1覆盖所有真实存在边的集合.数值模拟研究发现,本文所提方法与现存方法相比有相近的估计表现,而计算效率却更高.最后分析了一组基因数据来展示本文所提方法的实际应用表现.  相似文献   

7.
随着计算机储存能力和在线观测技术的提高,当今数据越来越多的以曲线和图像的形式存在.曲线和图像数据两个最显著的特征是高维和相邻数据间高度相关.这些特征使得传统的多元统计分析方法不再适合,而函数型数据在处理曲线和图像数据中具有无可比拟的优势.近年来各种各样的函数型数据分析方法得以发展,其中包括数据的对齐、主成分分析、回归、分类、聚类等.本文主要介绍函数型数据回归分析研究的起源、发展及最新进展.具体地,本文首先介绍函数型数据的概念;其次介绍函数型主成分分析方法;再次着重介绍函数型回归模型的估计、变量选择和检验方法;最后将简要探讨函数型数据未来的可能发展方向.  相似文献   

8.
在科学研究中,经常利用观测到的数据研究复杂系统的主要成分与观测变量的关系,这实际上是科学的最基础问题之一,称为"主成分分析".对"主成分分析"的优良性研究文章众多,但是由于东西方认知世界的哲学思想不同,所以历史上东西方对"主成分分析"的计算和论证方法有着相当大的差异.利用对称设计对数据进行分类,通过对东西方主成分分析的计算方法进行比较,说明东方象数学的主成分分析的计算方法具有再现性,而西方主成分分析的计算方法不具有再现性.从再现性的观点来看,东方象数学的主成分分析的计算方法科学性更强.  相似文献   

9.
在社会经济统计中,目前应用最多的数理统计方法除抽样理论外,就是回归分析了.在回归分析中列出回归方程后,还必须对回归效果进行显著性检验.一元线性回归可用相关系数r(或称单相关系数)值与相关系数(ra)检验表中的相应临界值,比较大小来判定其相关显著性程度.而多元线性回归,虽然同样也可仿照计算出其复相关系数R值,但由于没有复相关系数(Ra)检验表可供查找其临界值,因此无法直接衡量相关显著性程度.大大降低了复相关系数的使用价值.一般还是要通过方差分析来计算F统计量才能进行显著性检验.这样,不但手续麻烦,而且还要掌握方差分析,F检验…  相似文献   

10.
提出一种基于网络舆情和股票技术指标数据的支持向量机回归模型(NPOSVM),提高了股票价格的预测精度.模型首先将抓取的微博、股吧等股评观点分为正面和负面两类,计算正面观点所占的比例作为网络舆情,然后对网络舆情和股票技术指标数据作主成分分析,最后对保留的主成分运用支持向量机回归建模预测.实证分析国药股份(SH600511),仿真结果表明网络舆情与股票价格之间的相关系数为0.76;基于股票技术指标数据的支持向量机回归模型(TI-SVM)预测平均相对误差为1.29%、趋势准确率为57.14%,而NPO-SVM预测平均相对误差为0.66%、趋势准确率为71.43%.于是证明,NPO-SVM模型显著地提高了预测精度,是一种有效的预测股票价格的模型.  相似文献   

11.
关于相关系数的探讨   总被引:6,自引:0,他引:6  
讨论统计学中的线性相关系数和非线性相关系数,寻找其共性.对比研究与信息再利用.得到一个相关系数的通用公式.该公式适合于统计学中的各种数据处理.  相似文献   

12.
概率语言术语集(PLTS)包含了语言术语信息及其相应的概率信息,使得原始决策信息得到充分利用,大大提高了语言术语多属性决策的科学性.文章研究了一种基于概率语言术语集类Pearson综合相关系数的TOPSIS多属性决策方法.首先考虑了PLTSs的3个特征因素:均值、方差和长度,然后基于传统Pearson相关系数的思想,提出了一种新的概率语言术语集类Pearson综合相关系数,其特征是可从完整性、分布情况和犹豫性3个方面描述PLTSs,且取值大小介于区间[-1,1],从而可度量变量之间的正负相关关系,改进了现有方法存在的缺陷.为融合属性指标的不同权重,提出了概率语言术语集加权类Pearson综合相关系数,其考虑了属性权重的重要性,拓宽了适用范围.进一步地,构建了基于类Pearson综合相关系数的概率语言术语相对贴近度指标,并在此基础上提出了一种基于类Pearson综合相关系数的概率语言术语TOPSIS多属性方法.最后,通过数值算例和比较分析,说明该方法的有效性和适用性.  相似文献   

13.
段全才  张保法 《数学季刊》1992,7(4):100-105
This thesis offers the general concept of coefficient of partial correlation. Starting with regression analysis, the paper, by using samples, infers the general formula of expressing coefficient of partial correlation by way of simple correlation coefficient.  相似文献   

14.
股票市场超高频数据具有交易间隔随机性的特点,传统的皮尔逊相关性度量不能够直接使用原始交易数据,需要通过插值得到均匀、同步的抽样序列.傅里叶分析法不需要对原始数据进行插值,能更精确地度量时间序列的相关性.将傅里叶分析法用于我国金融市场股票收益率的相关性分析中,对皮尔逊相关分析和傅里叶分析法的度量效果进行了比较.  相似文献   

15.
非独立计数资料的内部相关性研究   总被引:3,自引:0,他引:3  
本研究探讨了非独立计数资料的内部相关性的测度方法。利用多平广义线性模型 ,导出了相应三种模型的家庭和地区内部相关系数公式 ,并用 1 992年四川省病毒性肝炎血清流行病学调查资料进行了实证性分析 ,结果符合实际。这说明本文有关非独立计数资料的内部相关系数的计算方法是合理的  相似文献   

16.
对相关系数性质的三种证明方法进行了讨论,指出其优劣.并将相关系数性质应用于线性回归分析之中.  相似文献   

17.
Correlation coefficients have many applications for studying the relationship among multivariate observations. Classical inferences on correlation coefficients are mainly based on the normality assumption. This assumption is hardly realistic in the real world, which implies that the procedures on correlation coefficients used in many statistical software packages may not be relevant to most data sets in practice. However, we show that the classical procedures, possibly after simple corrections, are also valid in classes of distributions with large skewnesses and heterogeneous marginal kurtoses. A useful class of nonnormal distributions is identified for each of several types of correlation coefficients. The marginals of these distributions may include a variety of univariate distributions with different shapes. The results generalize the classical procedures to much larger classes of distributions than previously known and give a better understanding of the historical controversy regarding the behavior of the sample correlation coefficient. An implication is that one need not be worried so much by the nonnormality of data sets when using these classical procedures, providing simple corrections are evaluated and possibly undertaken.  相似文献   

18.
詹婉荣  于海 《大学数学》2013,29(1):91-94
主要研究了相关系数的传递性.首先在区间[-1,1]上引入两个运算和⊕,并讨论了它们的性质.接着利用运算和⊕给出了相关系数的传递性:当Xi与Xk完全相关,Xk与Xj完全相关时,Xi与Xj也完全相关.  相似文献   

19.
Dealing with the missing values is an important object in the field of data mining. Besides, the properties of compositional data lead to that traditional imputation methods may get undesirable result if they are directly used in this type of data. As a result, the management of missing values in compositional data is of great significant. To solve this problem, this paper uses the relationship between compositional data and Euclidean data, and proposes a new method based on Random Forest for missing values in compositional data. This method has been implemented and evaluated using both simulated and real-world databases, then the experimental results reveal that the new imputation method can be widely used in various types of data sets and has good performance than other methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号