首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 582 毫秒
1.
在实际的调查数据和实验数据中,经常会出现数据缺失的问题,插补方法是处理缺失数据的一种常用的技术方法.对于目标变量是二分类的定性变量时,可以采用Logistic回归插补法进行插补,采用一套高中生进入大学学习影响因素分析的模拟数据进行实证分析,探讨了Logi8tic回归插补法的一些特点.  相似文献   

2.
在实际应用中,经常遇到数据分类集合中某一类的样本数量明显少于其他类的样本数量的数据不平衡问题.在二分类数据集中,一般称样本数目多的一类数据集合为正类,样本数目少的一类数据集合为负类.为了提高算法在不平衡数据集下的分类性能,提出了首先利用K-means找出负类中心点,再根据SMOTE基本原理,得出新的数据集.通过对比新数据集和原不平衡数据集在不同算法中的分类应用,结果表明本文改进算法的分类效果得到明显提升,最后用两两配对T检验验证算法的有效性.  相似文献   

3.
提出了一个判别模糊聚类中聚类数有效性的新指标.首先利用FCM算法对数据集进行模糊聚类,通过隶属度矩阵和聚类中心构建加权二分网络.然后通过改进加权二分网络的模函数,定义一个新的聚类有效性指标.为了检验该有效性指标的性能,选取了三个常见的有效性指标在十五个数据集上进行了对比.实验结果表明,该有效性指标具有较好的性能.  相似文献   

4.
本对二分单纯形算法的子规划问题作进一步研究,提出一个新的子规划问题来改善问题的不可行性,并确定了相应的主元旋转规则,并编制了相应于新子规划的新二分算法,并对94个线性规划问题进行了数值实验,实验结果表明,新二分算法是一种改进的二分算法。  相似文献   

5.
《数理统计与管理》2018,(2):280-288
大数据时代为科学研究带来了总量巨大、来源多样、特征多样的实验数据。随着高通量基因组技术的发展,基因表达数据成爆炸性增长,如何对这些数据进行有效快速地荟萃分析成为数据分析面临的重要问题。为了解决这一问题学者们提出了很多方法,本文就一些主要的数据荟萃分析方法和评价标准进行总结综述,为这一问题的研究提供一些参考,并对今后一些可能的研究方向进行初步展望。  相似文献   

6.
针对超高维二分类数据,基于条件信息熵构建了无模型下的判别筛选指标,对连续型特征进行筛选.在一定的正则条件下证明了确定筛选性质和指标排序相合性,并使用蒙特卡罗模拟和实例分析验证了筛选方法的有效性.  相似文献   

7.
针对1999-2011年中国工业企业和城市经济统计数据,利用Benford法则对中国工业企业财务数据进行了质量检验和分析。结果显示中国工业企业的资产、纳税数据质量相对较好,销售和成本数据可能存在质量问题,有证据表明工业企业在销售等数据上有调整的可能性,数据质量需引起注意。同时对影响企业数据质量的宏观经济因素进行了分析,结果表明人均GDP、人均工业总产值和农村人口较多的地区工业企业数据质量可能较差,体现了经济环境和治理环境对企业的数据统计与公布的影响。本文建议经济发展较好区域需加大对企业数据统计的管理,尤其应关注企业的销售等相关数据。  相似文献   

8.
数据驱动的决策支持系统概念及内涵   总被引:1,自引:0,他引:1  
从数据的观点出发,讨论了数据驱动的决策支持系统的概念及其内涵,对数据仓库、联机分析处理和数据挖掘等手段也进行了一定程度的讨论。另外,还对DSS数据和日常操作数据进行了分析,并给出了数据驱动的决策支持系统的基本结构。  相似文献   

9.
高维大数据的相似性计算是数据挖掘领域的研究重点,论文通过分析高维大数据相似性计算的难点,提出采用可拓学的方法解决其中矛盾问题的研究思路。在基元表示高维大数据的基础上,借助数据转换、数据筛选、权重的确定、数据预处理等技术实现了数据之间的相似性计算,并基于水污染常规分析数据进行了算法验证。论文借助可拓的思想研究大数据相似性的问题,不仅对数据挖掘的研究有一定的理论促进,同时也为可拓学的研究提供了新的应用空间。  相似文献   

10.
针对群评价中的数据质量问题, 从评价专家和评价值两个角度进行了异常数据处理, 提出了基于灰色关联度-云模型的群评价数据质量改进方法。基于改进的云距离模型测算被评价对象云和目标云之间的差距, 采用TOPSIS法进行评价排序。将数据质量改进方法和云距离模型用于区域物流竞争力群评价, 改进了群评价的数据质量, 提高了评价结果的稳定性和代表性。  相似文献   

11.
针对子弹自动自动匹配问题,首先利用子弹表面为圆柱面的假设,对采集得到的数据进行误差校正,然后将圆柱面上的深度数据展开到平面上,用经典的中值滤波和平滑算法去除噪声,良好的数据预处理算法对后续的特征提取和子弹匹配起到了重要作用.一方面将z轴数据映射到二维图像上,提出了基于统计的鲁棒的互相关性系数准则,另一方面,对三维数据进行可视化操作,显示划痕条数、划痕宽度等宏观特征,二者结合起来对子弹进行匹配.实验表明,方法取得了良好的效果,具有高达80%以上的识别率.  相似文献   

12.
调查中的数据缺失及处理(Ⅰ)——缺失数据及其影响   总被引:5,自引:0,他引:5  
调查中经常遇到缺失数据的现象。产生缺失数据的原因有多种 ,不同背景下的缺失数据对统计分析会带来不同的影响。提高统计调查数据的质量 ,一方面要采取有效措施减少数据缺失 ,提高调查的回答率 ;另一方面 ,当出现缺失数据时 ,可以对不完整的数据集进行处理 ,以减小由于缺失数据带来的影响。对缺失值有不同的调整方法 ,不同的方法各有特点。本系列将围绕上述问题进行讨论  相似文献   

13.
调查中经常遇到缺失数据的现象。产生缺失数据的原因有多种,不同背景下的缺失数据对统计分析会带来不同的影响。提高统计调查数据的质量,一方面要采取有效措施减少数据缺失,提高调查的回答率;另一方面,当出现缺失数据时,可以对不完整的数据集进行处理,以减小由于缺失数据带来的影响。对缺失值有不同的调整方法,不同的方法各有特点。本系列将围绕上述问题进行讨论。  相似文献   

14.
缺失数据的偏差校正(系列三)   总被引:2,自引:0,他引:2  
调查中的缺失数据会造成估计量的偏倚。有一些简单易行的对数据进行调整的方法 ,如果使用得当 ,可以减小由于缺失数据造成的估计量偏倚。本文介绍了三种常用的方法 :即 ,再抽样调整 ;多次调查数据调整和相关推估法  相似文献   

15.
《数理统计与管理》2019,(5):812-822
征信数据中的客户往往呈现"好多坏少"的不平衡结构,这种结构使得一般的分类模型在预测客户信用表现时失效。本文基于零膨胀计数模型的建模思想,分别提出处理因变量为二分类变量、多分类变量、计数变量的零膨胀信用评级模型(ZICSM),将客户结构拆分为稳定好客户、不稳定好客户和坏客户三个部分,利用模型自身优势形成严谨和宽松的两套贷款审批机制。ZICSM模型对目标函数进行权数调整,使模型更加关注"坏"客户,在目标函数中加入惩罚项,使模型具备组变量选择功能。此外,本文提出兼顾风险把控和市场份额的RS得分指标,借以评价信用评级模型的分类效果。模拟研究和实证研究的结果表明,ZICSM模型能够提升金融机构的贷款收益,增加其审批机制的灵活性,适用于处理征信数据的不平衡问题。  相似文献   

16.
《数理统计与管理》2019,(3):483-494
纵向数据和生存时间数据联合建模能减少由单独建模所引起的偏差,本文研究了基于纵向数据和生存时间联合建模的变量选择问题。对于生存时间数据,把生存时间做离散化处理,引入离散风险函数的Probit模型;对于纵向数据,利用线性混合效应模型建模。采用共享随机效应的方法对纵向数据和生存时间进行联合建模,通过利用多元高斯隐截断分布,构造出联合模型的精确似然。然后对似然函数加惩罚,重新构造目标函数,得到回归系数的稀疏估计量。理论证明以及数值模拟研究展示了稀疏估计量的良好性质。  相似文献   

17.
大数据环境下,数据缺失是一种普遍现象,由此带来数据决策偏差等问题.针对石油生产数据缺失问题,提出一种基于SMOTE和KNN的数据填充SMKNN算法.受不平衡数据集过采样的启发,SMKNN算法在KNN算法基础上采用SMOTE算法选取近邻随机插值产生的数据作为近似缺失值,同时,采用多重填补思想求平均值作为填充数据.分别采用UCI机器学习标准数据集和大庆油田某井区生产数据进行实验,验证了SMKNN算法不仅能填充数据,而且提高了准确率.  相似文献   

18.
随着数据服务形态不断衍生,数据资源作为一种新兴生产要素,其交易流通需求呈现爆发式增长。如何从海量数据中识别高质量数据资源,挖掘要素价值,成为数据交易平台获取竞争优势以及提升要素配置效率的关键。本文旨在发现平台交易情境下高质量数据形成的关键因素,提出从大规模、异质数据资源中高效识别高质量数据的方法。首先,基于高质量数据形成过程,构建“固有品质-商品表征”二维识别指标体系;然后,提出K-medoids-NCA-SMOTE-BSVM融合模型,对高、中、低三类不同质量数据进行分类预测;最后,收集真实数据交易平台的API交易数据,开展实证研究。结果显示:相比SVM,WOA-SVM,PSO-SVM,MLP和CNN等方法,K-medoids-NCA-SMOTE-BSVM模型在预测准确率和训练时间方面,均有良好的性能表现。本文提出的识别指标及分类模型,为平台经济下数据质量判断与预测提供了依据,对产品视角下数据质量标准制定以及数据交易定价优化具有一定实践意义。  相似文献   

19.
本文给出了巴拿赫空间中线性差分方程的两个多项式二分性概念, 使其在相应空间中的范数的增长速度不快于指数型增长. 并用实例阐释了相关概念之间的关系. 借助于指数二分性的研究方法讨论了多项式二分性的特征, 所得结论推广了指数稳定性及指数二分性中的一些已有结果.  相似文献   

20.
针对于二分类问题,提出一种改进的带有Pinball损失的一般双子支持向量机,实现了结构风险最小化原则.数值实验表明所提算法相比于其他算法具有一定的优越性,并验证了所提算法对交叉数据集和含有噪声的数据集的可行性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号