首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 62 毫秒
1.
缺失数据的插补调整   总被引:14,自引:2,他引:14  
插补是另一类对缺失数据进行调整 ,以减小估计偏差的方法。本文介绍的插补方法有 :演绎估计 ,均值插补 ,随机插补 ,回归插补和多重插补  相似文献   

2.
抽样调查中缺失数据的插补方法   总被引:5,自引:0,他引:5  
在抽样调查等实际问题中,经常出现数据缺失.针对这类问题,通常的处理方法之一是对数据进行插补。本文综述了抽样调查中处理缺失数据常用的插补方法。重点讨论了单一插补的方差估计与多重插补的简化计算以及使用回答概率的单一插补等。最后讨论目前插补所面临的问题与其发展方向.  相似文献   

3.
在海量征信数据的背景下,为降低缺失数据插补的计算成本,提出收缩近邻插补方法.收缩近邻方法通过三阶段完成数据插补,第一阶段基于样本和变量的缺失比例计算入样概率,通过不等概抽样完成数据的收缩,第二阶段基于样本间距离,选取与缺失样本近邻的样本组成训练集,第三阶段建立随机森林模型进行迭代插补.利用Australian数据集和中国各银行数据集进行模拟研究,结果表明在确保一定插补精度的情况下,收缩近邻方法较大程度减少了计算量.  相似文献   

4.
数据中掺杂干扰数据的现象十分常见,对于随机出现的干扰数据处理,目前已有很多方法可以借鉴,但对于人为的干扰数据,若继续使用传统方法,则可能不会达到很好的效果.倾向值可以用一维数值来描述多维数据的特征,且当数据具有相近的倾向值时,其本身常常也很相似,并可能来自同一总体.因此,文章提出一种应用倾向值匹配检测干扰数据的新方法,...  相似文献   

5.
针对基于得分信息的双边匹配问题,提出了一种决策方法。首先,给出了基于得分信息的双边匹配问题的描述;接着,引入了满意度计算公式;以每个主体满意度最大为目标,构建了求解该双边匹配决策问题的多目标优化模型;考虑到每方每个主体的重要程度,将多目标优化模型转化为双目标优化模型;运用线性加权法将双目标优化模型转化为单目标优化模型,在此基础上,运用匈牙利法进行求解获得匹配结果。最后,毕业生与实习岗位的双边匹配实例分析说明了所提方法的有效性。  相似文献   

6.
《数理统计与管理》2015,(4):621-627
基于正态分布提出了缺失数据下联合均值与方差模型,在响应变量随机缺失下研究了该模型均值插补、回归插补和随机回归插补三种插补方法的参数估计,通过数据模拟和实例研究结果比较表明,随机回归插补方法是三种插补方法中最有用和有效的。  相似文献   

7.
基于空间自回归模型的缺失值插补方法   总被引:2,自引:0,他引:2  
本文研究来自于区域的截面数据中缺失值的插补问题,讨论了当数据中存在空间相关时,空间自回归模型的建立以及利用其对缺失值进行插补的方法,并根据实际数据,通过建立模型给出插补结果。  相似文献   

8.
数据缺失是实际数据分析中一个常见的问题.文章将逆概率加权方法与插补方法结合,提出了一种Mallows模型平均方法以处理数据缺失问题,并证明了该方法得到的估计量在实现最小平方误差的意义下能渐近地达到最优.相比于传统的逆概率加权方法,文章的方法不仅可以充分利用观测信息,并且能够应用于非随机缺失的情形.相比于完全基于插补的方法,文章的方法继承了插补方法的一些优势,同时能够避免因错误地插补较大的数据块而产生的偏差.通过数值模拟,首先验证了三种简单的插补方法满足渐近最优性成立的条件,之后将文章提出的Mallows模型平均方法与已有的应用于缺失数据的模型平均方法进行比较,结果表明,所提出的新方法在大多数情况下优于已有的其它模型平均方法.最后,将新方法应用于平均寿命数据,实证结果进一步表明新方法较已有模型平均方法更为稳健.  相似文献   

9.
在实际的调查数据和实验数据中,经常会出现数据缺失的问题,插补方法是处理缺失数据的一种常用的技术方法.对于目标变量是二分类的定性变量时,可以采用Logistic回归插补法进行插补,采用一套高中生进入大学学习影响因素分析的模拟数据进行实证分析,探讨了Logi8tic回归插补法的一些特点.  相似文献   

10.
研究了具有数据缺失的Greenberg模型,充分利用有关辅助信息对总体分层,然后采取对每层有数据丢失的部分进行插补,从而,避免了因数据丢失引起的信息损失,最后用R软件对结果进行数值模拟,通过模拟情况分析,达到了理想的插补效果.  相似文献   

11.
Most current implementations of multiple imputation (MI) assume that data are missing at random (MAR), but this assumption is generally untestable. We performed analyses to test the effects of auxiliary variables on MI when the data are missing not at random (MNAR) using simulated data and real data. In the analyses we varied (a) the correlation, (b) the level of missing data, (c) the pattern of missing data, and (d) sample size. Results showed that MI performed adequately without auxiliary variables but they also had a modest impact on bias in the real data and improved efficiency in both data sets. The results of this study suggest that, counter to the concern about the violation of the MAR assumption, MI appears to be quite robust to missing data that are MNAR in analytic situations such as the ones presented here. Further, results can be made even better via the use of auxiliary variables, particularly when efficiency is a primary concern.  相似文献   

12.
Dealing with the missing values is an important object in the field of data mining. Besides, the properties of compositional data lead to that traditional imputation methods may get undesirable result if they are directly used in this type of data. As a result, the management of missing values in compositional data is of great significant. To solve this problem, this paper uses the relationship between compositional data and Euclidean data, and proposes a new method based on Random Forest for missing values in compositional data. This method has been implemented and evaluated using both simulated and real-world databases, then the experimental results reveal that the new imputation method can be widely used in various types of data sets and has good performance than other methods.  相似文献   

13.
In this paper, considering of the special geometry of compositionaldata, two new methods for estimating missing values in compositional data are introduced. Thefirst method uses the mean in the simplex space which mainly finds the-nearest neighborprocedure based on the Aitchison distance, combining with two basic operations on the simplex,perturbation and powering. As a second proposal the principal component regression imputationmethod is introduced which initially starts from the result of the proposed the mean in thesimplex. The method uses ilr transformation to transform the compositional data set, and thenuses principal component regression in a transformed space. The proposed methods are testedon real data and simulated data sets, the results show that the proposed methods work well.  相似文献   

14.
本文在响应变量随机缺失时, 给出了广义半参数模型中响应变量的2个均值拟似然借补估计.证明了它们具有渐近正态性, 给出了估计的渐近偏差与渐近方差, 并进行模拟比较.  相似文献   

15.
本文在响应变量随机缺失时,给出广义变系数模型中响应变量的2个均值拟似然借补估计。证明了它们具有渐近正态性,并进行了模拟研究。  相似文献   

16.
质量调整的价格指数编制中hedonic插补法的应用   总被引:1,自引:0,他引:1  
在数据缺失的情况下,插补法是一种常用的推断缺失数据的方法。在价格指数的编制中,在基期存在的产品可能在报告期从市面上消失,或者报告期出现了新产品。这都可以看作是数据缺失的情形。同时由于前后时期产品质量发生变化,所编制的价格指数中可能包含"质量变化偏差"。Hedonic插补法将hedonic方法与缺失数据的插补方法结合起来,既处理了缺失数据,又克服了价格指数中的质量变化偏差。本文讨论了hedonic插补法的多种可能形式,并比较了各种方法的特点。本文还利用中国笔记本电脑的数据编制了hedonic插补价格指数,进行了相关的实证分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号