首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
《数理统计与管理》2015,(4):621-627
基于正态分布提出了缺失数据下联合均值与方差模型,在响应变量随机缺失下研究了该模型均值插补、回归插补和随机回归插补三种插补方法的参数估计,通过数据模拟和实例研究结果比较表明,随机回归插补方法是三种插补方法中最有用和有效的。  相似文献   

2.
针对预测均值匹配中相近性刻画较为单一的问题,考虑多种相近性刻画方法,同时结合倾向得分可将多个协变量降维的特点,提出采用倾向得分匹配来对缺失数据进行插补的新方法:首先估计倾向得分,然后可选择最近邻、卡钳与半径、分层或区间等多种匹配方法进行匹配,最后利用匹配单元的目标变量来对数据缺失单元进行插补.进一步采用蒙特卡罗模拟和实际数据证实方法是有效的,且在均值插补、回归插补、随机插补、最近邻倾向得分匹配插补、卡钳与半径倾向得分匹配插补、分层或区间倾向得分匹配插补方法中分层或区间倾向得分匹配插补效果最好.  相似文献   

3.
针对现实生活中大量数据存在偏斜的情况,构建偏正态数据下的众数回归模型.又加之数据的缺失常有发生,采用插补方法处理缺失数据集,为比较插补效果,考虑对响应变量随机缺失情形进行统计推断研究.利用高斯牛顿迭代法给出众数回归模型参数的极大似然估计,比较该模型在均值插补,回归插补,众数插补三种插补条件下的插补效果.随机模拟和实例分...  相似文献   

4.
随着社会的发展,概率样本无回答率越来越高,其目标变量可能存在缺失的情况.同时,大数据与网络调查的发展使得获得的样本大多数是非概率样本,如何结合这两种样本推断总体是当今时代多源数据融合领域的一个热点问题.假设存在目标变量完全缺失的概率样本和数据完整的非概率样本,提出基于非概率样本建立超总体局部多项式模型,插补概率样本缺失的目标变量,并利用插补后的概率样本估计总体,进一步证明提出估计的渐近性质.模拟和实证研究表明:与基于非概率样本的倾向得分逆加权估计相比,提出估计的绝对相对偏差,方差与均方误差更小,且与基于真实概率样本的总体估计相接近;提出总体均值估计的方差估计的绝对相对偏差与95%置信区间覆盖率也接近于基于真实概率样本的总体估计的相应指标,估计效果较好.  相似文献   

5.
抽样调查中缺失数据的插补方法   总被引:5,自引:0,他引:5  
在抽样调查等实际问题中,经常出现数据缺失.针对这类问题,通常的处理方法之一是对数据进行插补。本文综述了抽样调查中处理缺失数据常用的插补方法。重点讨论了单一插补的方差估计与多重插补的简化计算以及使用回答概率的单一插补等。最后讨论目前插补所面临的问题与其发展方向.  相似文献   

6.
数据缺失是众多影响数据质量的因素中最常见的一种.若缺失数据处理不当,将直接影响分析结果的可靠性,进而达不到分析的目的.本文针对随机缺失偏正态数据,研究了偏正态众数混合专家模型的参数估计.将众数回归插补与聚类相结合,提出分层众数回归插补方法.利用机器学习插补和统计学插补的方法,进一步比较研究三种机器学习插补方法:支持向量机插补、随机森林插补和神经网络插补,三种统计学插补方法:分层均值插补、众数回归插补和分层众数回归插补的缺失数据处理效果.通过Monte Carlo模拟和实例分析结果表明,分层众数回归插补的优良性.  相似文献   

7.
基于主成分分析的成分数据缺失值插补法   总被引:1,自引:0,他引:1  
本文针对成分数据的特殊几何结构,提出了两种新方法对成分数据缺失值进行插补.一种是用单形空间的均值进行插补,主要是用Aitchison足巨离找到含缺失值样本的k个近邻样本,再结合单形空间中的加法运算与数乘运算,用单形空间上的均值对成分数据的缺失值进行插补;另一种是用主成分回归方法进行插补,先将用第一种方法进行初始插补的成分数据经过等距对数比变换变成普通数据,再用主成分回归进行第二次插补.实例分析和实验模拟结果表明:与k近邻插补法、迭代的最小二乘插补法相比较,本文提出的主成分插补法更优.  相似文献   

8.
缺失数据的插补调整   总被引:16,自引:2,他引:14  
插补是另一类对缺失数据进行调整 ,以减小估计偏差的方法。本文介绍的插补方法有 :演绎估计 ,均值插补 ,随机插补 ,回归插补和多重插补  相似文献   

9.
研究了具有数据缺失的Greenberg模型,充分利用有关辅助信息对总体分层,然后采取对每层有数据丢失的部分进行插补,从而,避免了因数据丢失引起的信息损失,最后用R软件对结果进行数值模拟,通过模拟情况分析,达到了理想的插补效果.  相似文献   

10.
在海量征信数据的背景下,为降低缺失数据插补的计算成本,提出收缩近邻插补方法.收缩近邻方法通过三阶段完成数据插补,第一阶段基于样本和变量的缺失比例计算入样概率,通过不等概抽样完成数据的收缩,第二阶段基于样本间距离,选取与缺失样本近邻的样本组成训练集,第三阶段建立随机森林模型进行迭代插补.利用Australian数据集和中国各银行数据集进行模拟研究,结果表明在确保一定插补精度的情况下,收缩近邻方法较大程度减少了计算量.  相似文献   

11.
本文在数量特征随机化回答技术中当变异系数、偏度系数、峰度系数已知时,对总体均值提出了一系列比类型估计量,并且在一定条件下,证明了这些估计量优于Gupta et al.提出的估计量。  相似文献   

12.
Summary Asymptotic properties of several estimators of interclass correlation from familial data are examined in the case of a variable number of siblings per family. After showing that the usual sib-mean estimator is not consistent, a modified sib-mean estimator is proposed. Asymptotic distributions of estimators are derived and a test procedure is provided for a certain testing problem concerning interclass correlation. Several estimators are compared in the various mean number of siblings per family, using asymptotic mean square errors. The Institute of Statistical Mathematics  相似文献   

13.
该文主要考虑部分线性变系数模型在自变量含有测量误差以及因变量存在缺失情形下的估计问题.基于Profile最小二乘技术,针对参数分量和非参数分量提出了多种估计方法.第一种估计方法只利用了完整观测数据,而第二种和第三种估计方法分别利用了插补技术和替代技术.参数分量的所有估计被证明是渐近正态的,非参数分量的所有估计被证明和一般非参数回归函数的估计具有相同的收敛速度.对于因变量的均值,构造了两类估计并证明了它们的渐近正态性.最后,通过数值模拟验证了所提方法.  相似文献   

14.
In this paper, a fixed design regression model where the errors follow a strictly stationary process is considered. In this model the conditional mean function and the conditional variance function are unknown curves. Correlated errors when observations are missing in the response variable are assumed. Four nonparametric estimators of the conditional variance function based on local polynomial fitting are proposed. Expressions of the asymptotic bias and variance of these estimators are obtained. A simulation study illustrates the behavior of the proposed estimators.  相似文献   

15.
部分线性单指标模型的复合分位数回归及变量选择   总被引:1,自引:0,他引:1       下载免费PDF全文
本文提出复合最小化平均分位数损失估计方法 (composite minimizing average check loss estimation,CMACLE)用于实现部分线性单指标模型(partial linear single-index models,PLSIM)的复合分位数回归(composite quantile regression,CQR).首先基于高维核函数构造参数部分的复合分位数回归意义下的相合估计,在此相合估计的基础上,通过采用指标核函数进一步得到参数和非参数函数的可达最优收敛速度的估计,并建立所得估计的渐近正态性,比较PLSIM的CQR估计和最小平均方差估计(MAVE)的相对渐近效率.进一步地,本文提出CQR框架下PLSIM的变量选择方法,证明所提变量选择方法的oracle性质.随机模拟和实例分析验证了所提方法在有限样本时的表现,证实了所提方法的优良性.  相似文献   

16.
In this paper we deal with comparisons among several estimators available in situations of multicollinearity (e.g., the r-k class estimator proposed by Baye and Parker, the ordinary ridge regression (ORR) estimator, the principal components regression (PCR) estimator and also the ordinary least squares (OLS) estimator) for a misspecified linear model where misspecification is due to omission of some relevant explanatory variables. These comparisons are made in terms of the mean square error (mse) of the estimators of regression coefficients as well as of the predictor of the conditional mean of the dependent variable. It is found that under the same conditions as in the true model, the superiority of the r-k class estimator over the ORR, PCR and OLS estimators and those of the ORR and PCR estimators over the OLS estimator remain unchanged in the misspecified model. Only in the case of comparison between the ORR and PCR estimators, no definite conclusion regarding the mse dominance of one over the other in the misspecified model can be drawn.  相似文献   

17.
The probability density estimation problem with surrogate data and validation sample is considered. A regression calibration kernel density estimator is defined to incorporate the information contained in both surrogate variates and validation sample. Also, we define two weighted estimators which have less asymptotic variances but have bigger biases than the regression calibration kernel density estimator. All the proposed estimators are proved to be asymptotically normal. And the asymptotic representations for the mean squared error and mean integrated square error of the proposed estimators are established, respectively. A simulation study is conducted to compare the finite sample behaviors of the proposed estimators.  相似文献   

18.
在响应变量随机缺失时,研究了半参数变系数模型响应变量均值的借补估计.首先利用完整个体估计模型中的参数与非参数部分,然后再用借补方法与加权借补方法估计响应变量的均值.最后求出了估计的渐近偏差与渐近方差,研究了所得到的估计的渐近性质,并进行模拟比较.  相似文献   

19.
The problem of combining independent information from different sources in a multivariate calibration setup is considered. The dimensions of the response vectors from various sources may be unequal. A linear combination of the classical estimators based on the individual sources is proposed as an estimator for the unknown explanatory variable. It is shown that the combined estimator has finite mean provided the sum of the dimensions of the response vectors exceeds one and has finite mean squared error if it exceeds two. Expressions for asymptotic bias and mean squared error are given.  相似文献   

20.
The regression estimation of the mean of a primary survey variable and the estimation of the regression equation are considered in the finite population with transformed auxiliary variables. Large sample properties of estimators are developed. The effects of estimating auxiliary variates on estimators are investigated.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号