首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
调查中的数据缺失及处理(Ⅰ)——缺失数据及其影响   总被引:5,自引:0,他引:5  
调查中经常遇到缺失数据的现象。产生缺失数据的原因有多种 ,不同背景下的缺失数据对统计分析会带来不同的影响。提高统计调查数据的质量 ,一方面要采取有效措施减少数据缺失 ,提高调查的回答率 ;另一方面 ,当出现缺失数据时 ,可以对不完整的数据集进行处理 ,以减小由于缺失数据带来的影响。对缺失值有不同的调整方法 ,不同的方法各有特点。本系列将围绕上述问题进行讨论  相似文献   

2.
缺失数据的偏差校正(系列三)   总被引:2,自引:0,他引:2  
调查中的缺失数据会造成估计量的偏倚。有一些简单易行的对数据进行调整的方法 ,如果使用得当 ,可以减小由于缺失数据造成的估计量偏倚。本文介绍了三种常用的方法 :即 ,再抽样调整 ;多次调查数据调整和相关推估法  相似文献   

3.
《数理统计与管理》2019,(6):977-985
在纵向抽样调查活动中,常出现变量数据缺失的情况,如何对含缺失的数据集进行总体参数估计是一个热点话题。目前已有方法主要适用于随机缺失机制下的缺失数据分析问题,常采用插补法生成完整数据集,基于此进行参数估计。本文在非随机数据缺失机制下,研究了几种基于模型的参数似然估计方法,包括模式混合模型法和选择模型法,对单调缺失模式下含缺失纵向调查数据给出了参数估计范例,进而引入随机效应参数,将两种方法加以推广。  相似文献   

4.
在实际的调查数据和实验数据中,经常会出现数据缺失的问题,插补方法是处理缺失数据的一种常用的技术方法.对于目标变量是二分类的定性变量时,可以采用Logistic回归插补法进行插补,采用一套高中生进入大学学习影响因素分析的模拟数据进行实证分析,探讨了Logi8tic回归插补法的一些特点.  相似文献   

5.
关于数据缺失机制的检验方法探讨   总被引:1,自引:0,他引:1  
在调查研究中,缺失数据是一个非常普遍的问题,各种处理缺失数据的方法都是建立在数据缺失机制的某种假定上.在总结他人研究成果的基础上,分别给出了MCAR、MAR和NMAR机制的检验识别方法,MCAR机制的检验从分布特征入手,通过比较均值和方差是否一致来判定;MAR机制的检验利用Logit模型刻画缺失指示变量R的分布,通过估计参数的显著性来判定,NMAR机制则通过对数据的缺失模式和原因进行分析来识别.  相似文献   

6.
高质量的决策越来越依赖于高质量的数据挖掘及其分析,高质量的数据挖掘离不开高质量的数据.在大型仪器利用情况调查中,由于主客观因素,总是致使有些数据出现异常,影响数据的质量.这就需要通过适用的方法对异常数据进行检测处理.不同类型数据往往需要不同的异常值检测方法.分析了大型仪器利用情况调查数据的总体特点、一般方法,并以国家科技部平台中心主持的"我国大型仪器资源现状调查"(2009)中大型仪器使用机时和共享机时数据为主线,比较研究了回归方法、基于深度的方法和箱线图方法等对不同类型数据异常值检测的适用性.选取不同角度,检验并采用不同的适用方法,找出相关的可疑异常值,有助于下一步有效开展大型仪器利用情况异常数据的分析处理,提高数据质量,为大型仪器利用情况综合评价奠定基础,也为科技资源调查数据预处理中异常值检测方法提供有益借鉴.  相似文献   

7.
大数据环境下,数据缺失是一种普遍现象,由此带来数据决策偏差等问题.针对石油生产数据缺失问题,提出一种基于SMOTE和KNN的数据填充SMKNN算法.受不平衡数据集过采样的启发,SMKNN算法在KNN算法基础上采用SMOTE算法选取近邻随机插值产生的数据作为近似缺失值,同时,采用多重填补思想求平均值作为填充数据.分别采用UCI机器学习标准数据集和大庆油田某井区生产数据进行实验,验证了SMKNN算法不仅能填充数据,而且提高了准确率.  相似文献   

8.
不同缺失率下EM算法的参数估计   总被引:1,自引:0,他引:1  
缺失数据是林学研究中普遍存在的一种现象,依据极大似然的思想,对林学研究中有缺失数据的线性模型,推导出了基于EM算法参数估计的迭代公式,为考察样地林分质量,以8个杉木固定样地观测资料的真实数据建立模型,通过计算机模拟和有关的数据分析,得到了12种不同缺失率下参数的估计结果,并与完全数据时的参数估计进行了比较。  相似文献   

9.
在时间序列建模过程中,数据的缺失会极大地影响模型的准确性,因此对缺失数据的填补尤为重要.选取北京市空气质量指数(AQI)数据。将其随机缺失10%.分别利用EM算法和polyfit直线拟合的方法对缺失值插补,补全数据后建立ARMA模型并作预测分析.结果表明,利用polyfit函数插补法具有较好的结果.  相似文献   

10.
本文主要考虑响应变量缺失下部分线性EV模型的异方差检验问题.首先,利用完全观测到的数据对模型的未知参数和光滑函数进行估计,在此基础上利用回归借补的方法补齐缺失数据.然后,建立了对模型的随机误差进行异方差检验的经验似然比统计量,并证明该统计量渐近服从卡方分布.最后,通过数值模拟研究了检验在不同缺失概率下的有限样本性质,并在实例分析中利用部分线性EV模型对缺失数据进行了异方差检验.  相似文献   

11.
目的对医院出院病人调查表普遍存在的数据缺失进行填补与分析,以保证统计调查表的质量,为医院以及上级卫生部门了解现状,进行预策和决策提供技术支持和质量保证。方法运用SAS9.1,采用多重填补方法Markov Chain Monte Carlo(MCMC)模型对缺失数据进行多次填补并综合分析。结果MCMC填补10次的结果最优。结论(Multiple Imputation)MI方法在解决医院出院病人调查表数据缺失时有优势,发挥空间较大,且填补效率较高。  相似文献   

12.
复制数据是处理抽样调查中数据项目缺失的一种常用方法。在两种常见模型及复杂抽样设计下,本文对处理数据项目缺失的类均值复制和类加权均值复制方法进行了对比。  相似文献   

13.
缺失数据处理是数据挖掘领域中进行数据预处理的一个重要环节,由于成分数据特殊的几何性质,传统的缺失值填补方法不能直接用于这种类型的数据.因此,对成分数据而言,缺失值的填补具有十分重要的意义.为了解决这个问题,本文利用了成分数据和欧氏数据之间的关系,提出了一种基于随机森林的成分数据缺失值迭代填补法,该方法的实施和评估采用模拟和真实的数据集.实验结果表明:新的填补方法可广泛应用于多种类型的数据集且具有较高准确性.  相似文献   

14.
数据缺失在实际应用中普遍存在,数据缺失会降低研究效率,导致参数估计有偏.在协变量随机缺失(MAR)的假定下,本文基于众数回归和逆概率加权估计方法对线性模型进行参数估计.该方法结合参数Logistic回归和非参数Nadaraya-Watson估计两种倾向得分估计方法,分别构建IPWM-L估计量和IPWM-NW估计量.模拟研究和实例分析表明,众数回归模型比均值回归模型更具稳健性,逆概率加权众数(IPWM)估计方法在缺失数据下表现出了更好的拟合效果,与IPWM-L估计量相比, IPWM-NW估计量更稳健.  相似文献   

15.
项目反应理论(IRT)模型是教育统计与测量中一种十分重要的模型,它包含项目参数和能力参数.目前一种常用的估计IRT模型项目参数的方法是由Woodruff和Hanson(1997)应用EM算法给出的,它用于完全反应数据,而把能力参数看作缺失数据.本文将Woodruff的方法推广到处理缺失反应的情况,基本思想是把能力参数和缺失反应均看作缺失数据,再运用EM算法估计参数.通过模拟研究,在不同被试人数和不同缺失比例的情况下,本文比较了我们给出的方法和BILOG-MG软件的缺失数据处理方法的参数估计效果.结果表明,在大多数情况下,本文提出的方法能得到更好的估计.  相似文献   

16.
采用Bayes分析方法,对完全随机缺失下配对试验设计数据进行统计分析,给出了参数的Bayes后验概率密度函数及参数的置信区间计算表达式,并对基于Bayes分析的假设检验功效进行了模拟.从模拟结果看,Bayes分析检验功效一致性地高于缺失数据配对删除的t检验方法,特别,在缺失数据相对较多或配对数据相关系数较低时,其表现出更大优势.  相似文献   

17.
研究了缺失数据的均值推断问题.在随机缺失及半参数模型的假设下,设计了基于影响函数理论的经验似然推断方法,证明了所构造的对数经验似然比检验统计量具有非参数Wilks性质.此外,该经验似然方法可以利用辅助协变量中提供的附加信息来提高检验的功效.在近邻备择假设下,计算了检验统计量的功效,并且通过一些模拟考察了该方法在有限样本下的表现.  相似文献   

18.
研究了缺失数据的均值推断问题.在随机缺失及半参数模型的假设下,设计了基于影响函数理论的经验似然推断方法,证明了所构造的对数经验似然比检验统计量具有非参数Wilks性质.此外,该经验似然方法可以利用辅助协变量中提供的附加信息来提高检验的功效.在近邻备择假设下,计算了检验统计量的功效,并且通过一些模拟考察了该方法在有限样本下的表现.  相似文献   

19.
针对目前高校校园里大学生的作弊问题,本文通过对调查问卷的统计分析对其原因进行了分析。通过对名义数据和有序数据的相关性分析,我们首先找出影响大学生作弊的因素。然后用逐步回归法和Logistic回归模型得出影响大学生作弊的主要因素。最后分析了性别和不同年级对作弊的影响,得出了许多意料之中和意料之外的答案。这些分析结果对如何进行大学生素质教育有一定的参考价值。  相似文献   

20.
对居民家庭进行抽样调查时,常常出于隐私或缺乏专业知识背景的原因,使得居民对被调查的经济变量不愿或无法给出准确值,从而影响调查数据的质量.在此情况下,国外知名的调查(如,美国的消费金融调查)会将调查变量的取值范围划分成一系列连续的、长度不等的区间,请受访者选择,以此来消除受访者的戒备和疑虑心理,收集家庭的经济变量的信息,但这种区间的划分是一种经验划分.从降低数据分析误差的角度提出了一种优化区间长度的设计思路,利用遗传算法给出了问题求解的方法,最后通过一个实际例子加以说明.方法对提高调查变量的数据质量颇有帮助.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号