首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
样本中各数据之间的差异称为交差,数理统计上有多种统计量 可以用来衡量变差的大小,如 样本极差 样本方差 样本平均差M 样本方差的量纲是原数据量纲的二次方,所以有附用样本标准差(又叫标准离差)来代替样本方差,作为变差的一种度量. 现有两组样本数据: 甲0.50.20.10.40.3 乙 100.5 100.2 100.1100.4 100.3可以算出可见无论用R、M.D.还是用S来衡量,这两组数据的变差是一样的.但是这种“一样”,无疑是指的样本中各数据间差异的 “绝对性”一面.如果看一看差异的相对性,就会发现,甲组数据的、“相对差异”要比乙组数据大得多;甲组数据之间有…  相似文献   

2.
在实际应用中,经常遇到数据分类集合中某一类的样本数量明显少于其他类的样本数量的数据不平衡问题.在二分类数据集中,一般称样本数目多的一类数据集合为正类,样本数目少的一类数据集合为负类.为了提高算法在不平衡数据集下的分类性能,提出了首先利用K-means找出负类中心点,再根据SMOTE基本原理,得出新的数据集.通过对比新数据集和原不平衡数据集在不同算法中的分类应用,结果表明本文改进算法的分类效果得到明显提升,最后用两两配对T检验验证算法的有效性.  相似文献   

3.
在海量征信数据的背景下,为降低缺失数据插补的计算成本,提出收缩近邻插补方法.收缩近邻方法通过三阶段完成数据插补,第一阶段基于样本和变量的缺失比例计算入样概率,通过不等概抽样完成数据的收缩,第二阶段基于样本间距离,选取与缺失样本近邻的样本组成训练集,第三阶段建立随机森林模型进行迭代插补.利用Australian数据集和中国各银行数据集进行模拟研究,结果表明在确保一定插补精度的情况下,收缩近邻方法较大程度减少了计算量.  相似文献   

4.
随着社会的发展,概率样本无回答率越来越高,其目标变量可能存在缺失的情况.同时,大数据与网络调查的发展使得获得的样本大多数是非概率样本,如何结合这两种样本推断总体是当今时代多源数据融合领域的一个热点问题.假设存在目标变量完全缺失的概率样本和数据完整的非概率样本,提出基于非概率样本建立超总体局部多项式模型,插补概率样本缺失的目标变量,并利用插补后的概率样本估计总体,进一步证明提出估计的渐近性质.模拟和实证研究表明:与基于非概率样本的倾向得分逆加权估计相比,提出估计的绝对相对偏差,方差与均方误差更小,且与基于真实概率样本的总体估计相接近;提出总体均值估计的方差估计的绝对相对偏差与95%置信区间覆盖率也接近于基于真实概率样本的总体估计的相应指标,估计效果较好.  相似文献   

5.
通过定义了一种基于数据最优分区间相似度算法,利用学习样本得单位相似度向量,并得各维数据的最优分区间.利用最优分区间得预测样本与学习样本的单位相似度向量,从而得预测样本的预测值.通过实例表明,算法所预测的结果相对误差可达百分位,并且本算法能应用到其它数据处理中,具有较广泛的通用性.  相似文献   

6.
基于高维数据预测方法的应用,提出一种分维权重样条插值预测算法.通过高维数据的各维,建立样本各维数据与对应权重的网络结构关系,网络的结点个数与样本的个数无关.通过训练样本各维权重所满足的线性方程组得到各维的权值,再根据样本的各维数据值和所得到的对应权值进行三次样条插值,得到各维数据值的权值函数,而不是传统方法的常数,这克服了个别数据变化所带来的整体度量值发生较大变化的缺点.数值仿真实验表明:分维权重样条插值预测算法不失是一种稳定而灵活的算法,而且预测的精度较高,可以根据样条插值函数得到样本各维的权值.  相似文献   

7.
在定数截尾样本下三参数威布尔分布的矩估计方程   总被引:1,自引:0,他引:1  
将威布尔分布数据转化为均匀分布数据,利用平均剩余寿命构造样本矩,得到了在定数截尾样本下三参数威布尔分布的矩估计方程.  相似文献   

8.
癌症的早期诊断可以显著提高癌症患者的存活率,三分类问题就是将未知样本与已知样本进行匹配度检测,预测样本是健康状态,良性发展状态,还是癌症状态.针对复杂难分的卵巢癌蛋白质质谱数据,提出了一种基于高斯混合模型和BP神经网络的三分类预测模型.首先,去除原数据中的冗余,对其进行方差排序及交集筛选提取特征集合一,再利用高斯混合模型处理求得参数作为特征集合二,最后使用BP神经网络进行样本三分类,准确率达到72.9%.结果表明:模型可以作为卵巢癌质谱数据三分类的可选择工具.  相似文献   

9.
针对多指标面板数据的公因子提取及评价问题,提出一种充分挖掘面板数据时间序列价值的分层因子模型.模型在底层上通过对各个时点上截面数据指标变量的精炼实现对截面样本数据的评价,将截面数据压缩成只具有时间维度的样本评价值向量;模型顶层进一步实现了对由各个截面样本评价值向量形成的综合评价矩阵时间维度的精炼,并推导出面板数据因子得分公式及评价函数.最后,运用模型方法对我国大陆31个省市国有及规模以上非国有企业生产及经营状态面板数据进行了因子分析,分析结果显示了方法的合理性.分层模型实现了对面板数据各样本的指标维度与时间维度的双重提炼,弥补了现有方法的片面性与局限性.  相似文献   

10.
在处理高维数据的检验和分类等问题时,涉及到协方差矩阵的估计.而在高维数据领域,协方差矩阵估计的精度将对诸如检验和分类等问题起到非常重要的影响.主要考虑多样本条件下协方差矩阵的比率相合性问题,证明了两样本和三样本情况下的高维数据协方差矩阵比率相合性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号