共查询到20条相似文献,搜索用时 296 毫秒
1.
大数据环境下,数据缺失是一种普遍现象,由此带来数据决策偏差等问题.针对石油生产数据缺失问题,提出一种基于SMOTE和KNN的数据填充SMKNN算法.受不平衡数据集过采样的启发,SMKNN算法在KNN算法基础上采用SMOTE算法选取近邻随机插值产生的数据作为近似缺失值,同时,采用多重填补思想求平均值作为填充数据.分别采用UCI机器学习标准数据集和大庆油田某井区生产数据进行实验,验证了SMKNN算法不仅能填充数据,而且提高了准确率. 相似文献
2.
为了解决具有不完整信息的直觉模糊软集多属性群决策方法的问题,首先在模糊软集和直觉模糊软集的基础之上推广已有软集中缺失数据的填补方法,用来确定不完整信息的填补值。不同决策者的权重值由直觉模糊软集的距离来确定,参数的权重值由熵度量来确定。在群决策的过程中,借助直觉模糊软矩阵集成运算公式,将不同决策者的决策矩阵集成为综合决策矩阵。然后根据对象得分值的不同实现决策。最后,给出实例分析,验证了该方法在实际中有广泛的应用。 相似文献
3.
在时间序列建模过程中,数据的缺失会极大地影响模型的准确性,因此对缺失数据的填补尤为重要.选取北京市空气质量指数(AQI)数据。将其随机缺失10%.分别利用EM算法和polyfit直线拟合的方法对缺失值插补,补全数据后建立ARMA模型并作预测分析.结果表明,利用polyfit函数插补法具有较好的结果. 相似文献
4.
基于主成分分析的成分数据缺失值插补法 总被引:1,自引:0,他引:1
《应用概率统计》2016,(1)
本文针对成分数据的特殊几何结构,提出了两种新方法对成分数据缺失值进行插补.一种是用单形空间的均值进行插补,主要是用Aitchison足巨离找到含缺失值样本的k个近邻样本,再结合单形空间中的加法运算与数乘运算,用单形空间上的均值对成分数据的缺失值进行插补;另一种是用主成分回归方法进行插补,先将用第一种方法进行初始插补的成分数据经过等距对数比变换变成普通数据,再用主成分回归进行第二次插补.实例分析和实验模拟结果表明:与k近邻插补法、迭代的最小二乘插补法相比较,本文提出的主成分插补法更优. 相似文献
5.
6.
目的对医院出院病人调查表普遍存在的数据缺失进行填补与分析,以保证统计调查表的质量,为医院以及上级卫生部门了解现状,进行预策和决策提供技术支持和质量保证。方法运用SAS9.1,采用多重填补方法Markov Chain Monte Carlo(MCMC)模型对缺失数据进行多次填补并综合分析。结果MCMC填补10次的结果最优。结论(Multiple Imputation)MI方法在解决医院出院病人调查表数据缺失时有优势,发挥空间较大,且填补效率较高。 相似文献
7.
φ-混合样本下,当响应变量满足随机缺失机制时,利用回归填补方法填补缺失的数据,在此基础上给出了线性模型回归系数的估计,并在一定的条件下证明了估计的渐近正态性. 相似文献
8.
在完全随机缺失机制情形,利用分数填补法填补缺失值,然后用经验似然方法构造两总体分位数差异的半经验似然比统计量,证明其渐近服从加权X~2分布并构造了相应的半经验似然置信区间. 相似文献
9.
分别利用平均值和Hausdorff测度将基于距离的实数型Vague集的相似度方法扩展到区间值Vague集上,比较各种方法的优缺点.填补了i-v Vague值(集)的相似度方法研究的空白.并通过例子说明利用Hausdorff测度度量距离得到的相似度量方法比用区间中值得到的相似度效度高. 相似文献
10.
11.
在海量征信数据的背景下,为降低缺失数据插补的计算成本,提出收缩近邻插补方法.收缩近邻方法通过三阶段完成数据插补,第一阶段基于样本和变量的缺失比例计算入样概率,通过不等概抽样完成数据的收缩,第二阶段基于样本间距离,选取与缺失样本近邻的样本组成训练集,第三阶段建立随机森林模型进行迭代插补.利用Australian数据集和中国各银行数据集进行模拟研究,结果表明在确保一定插补精度的情况下,收缩近邻方法较大程度减少了计算量. 相似文献
12.
调查中的数据缺失及处理(Ⅰ)——缺失数据及其影响 总被引:5,自引:0,他引:5
调查中经常遇到缺失数据的现象。产生缺失数据的原因有多种 ,不同背景下的缺失数据对统计分析会带来不同的影响。提高统计调查数据的质量 ,一方面要采取有效措施减少数据缺失 ,提高调查的回答率 ;另一方面 ,当出现缺失数据时 ,可以对不完整的数据集进行处理 ,以减小由于缺失数据带来的影响。对缺失值有不同的调整方法 ,不同的方法各有特点。本系列将围绕上述问题进行讨论 相似文献
13.
调查中经常遇到缺失数据的现象。产生缺失数据的原因有多种,不同背景下的缺失数据对统计分析会带来不同的影响。提高统计调查数据的质量,一方面要采取有效措施减少数据缺失,提高调查的回答率;另一方面,当出现缺失数据时,可以对不完整的数据集进行处理,以减小由于缺失数据带来的影响。对缺失值有不同的调整方法,不同的方法各有特点。本系列将围绕上述问题进行讨论。 相似文献
14.
隐马尔可夫因子模型在刻画多元纵向数据的关联性和异质性具有重要作用.在实际应用中,观测数据往往呈现缺失数据.本文在纵向框架内,对缺失的数据提出了一个建模.使用一个多项模型去拟合缺失数据指标,并提出用一系列一维条件分布的联合分布来建模.每个一维条件分布不仅取决于当前变量的观测值,而且也糅合以前的观测值和丢失的信息.在贝叶斯框架内,马尔可夫链蒙特卡罗方法用于实现后验分析.带有Metropolis-Hastings算法的Gibbs采样器被用来从相关的满条件分布中抽取随机样本.后验推断基于这些模拟观测值进行展开.我们进行了模拟研究.实证结果表明,所提出的方法在模型是正确指定时是十分有效的,而且对模型偏移也具有一定的稳健性. 相似文献
15.
左截断数据是一类具有特殊结构的缺失数据,当且仅当研究变量大于一定的阈值时才能取得观察值.本文针对左截断数据下的非线性回归模型,提出了加权分位数估计方法,利用加权方式处理左截断缺失数据,取得了与完整数据相近的估计结果.并在一定假设条件下,证明了所提估计方法的一致性和渐近正态性等大样本性质,最后通过数值模拟展现所提估计方法的有限样本表现. 相似文献
16.
17.
含糊性和不可分辨性是决策中不确定性的两个方面.Vague集由真、假隶属度两方面来定义,具有强大的表达不精确数据的能力.在介绍Vague集的有关概念的基础上,基于DEA方法,将vague值转化为确定性数据,能够对vague值之间进行比较,且为同时包含vague值和其他定量指标的多目标决策提供思路. 相似文献
18.
从函数扩充的角度将模糊推理视为两个论域语言值与语言值之间的对应关系,将一条规则视为一个由前提和结论组成的模糊数据对,将规则集视为一组已知的模糊数据节点集,将它们作为模糊插值节点,给出了一种插值推理函数的建立方法.然后利用扩展原理给出插值推理结果,推理的过程简化为一个求复合函数的过程.无论是对稀疏规则集还是对完备规则集,只要具有有序交叠互补性,该推理方法就能保证还原性,语气单调性,属性介值性和保正规性. 相似文献
19.
20.
在一定的条件下证明了缺失数据情形基于分数填补方法得到的两非参数总体一般差异指标的经验似然比统计量的渐近分布为加权χ21,由此可构造差异指标的经验似然置信区间. 相似文献