共查询到20条相似文献,搜索用时 582 毫秒
1.
《数学的实践与认识》2013,(21)
在实际的调查数据和实验数据中,经常会出现数据缺失的问题,插补方法是处理缺失数据的一种常用的技术方法.对于目标变量是二分类的定性变量时,可以采用Logistic回归插补法进行插补,采用一套高中生进入大学学习影响因素分析的模拟数据进行实证分析,探讨了Logi8tic回归插补法的一些特点. 相似文献
2.
《数学的实践与认识》2015,(19)
在实际应用中,经常遇到数据分类集合中某一类的样本数量明显少于其他类的样本数量的数据不平衡问题.在二分类数据集中,一般称样本数目多的一类数据集合为正类,样本数目少的一类数据集合为负类.为了提高算法在不平衡数据集下的分类性能,提出了首先利用K-means找出负类中心点,再根据SMOTE基本原理,得出新的数据集.通过对比新数据集和原不平衡数据集在不同算法中的分类应用,结果表明本文改进算法的分类效果得到明显提升,最后用两两配对T检验验证算法的有效性. 相似文献
3.
4.
本对二分单纯形算法的子规划问题作进一步研究,提出一个新的子规划问题来改善问题的不可行性,并确定了相应的主元旋转规则,并编制了相应于新子规划的新二分算法,并对94个线性规划问题进行了数值实验,实验结果表明,新二分算法是一种改进的二分算法。 相似文献
5.
6.
针对超高维二分类数据,基于条件信息熵构建了无模型下的判别筛选指标,对连续型特征进行筛选.在一定的正则条件下证明了确定筛选性质和指标排序相合性,并使用蒙特卡罗模拟和实例分析验证了筛选方法的有效性. 相似文献
7.
8.
数据驱动的决策支持系统概念及内涵 总被引:1,自引:0,他引:1
从数据的观点出发,讨论了数据驱动的决策支持系统的概念及其内涵,对数据仓库、联机分析处理和数据挖掘等手段也进行了一定程度的讨论。另外,还对DSS数据和日常操作数据进行了分析,并给出了数据驱动的决策支持系统的基本结构。 相似文献
9.
高维大数据的相似性计算是数据挖掘领域的研究重点,论文通过分析高维大数据相似性计算的难点,提出采用可拓学的方法解决其中矛盾问题的研究思路。在基元表示高维大数据的基础上,借助数据转换、数据筛选、权重的确定、数据预处理等技术实现了数据之间的相似性计算,并基于水污染常规分析数据进行了算法验证。论文借助可拓的思想研究大数据相似性的问题,不仅对数据挖掘的研究有一定的理论促进,同时也为可拓学的研究提供了新的应用空间。 相似文献
10.
11.
针对子弹自动自动匹配问题,首先利用子弹表面为圆柱面的假设,对采集得到的数据进行误差校正,然后将圆柱面上的深度数据展开到平面上,用经典的中值滤波和平滑算法去除噪声,良好的数据预处理算法对后续的特征提取和子弹匹配起到了重要作用.一方面将z轴数据映射到二维图像上,提出了基于统计的鲁棒的互相关性系数准则,另一方面,对三维数据进行可视化操作,显示划痕条数、划痕宽度等宏观特征,二者结合起来对子弹进行匹配.实验表明,方法取得了良好的效果,具有高达80%以上的识别率. 相似文献
12.
调查中的数据缺失及处理(Ⅰ)——缺失数据及其影响 总被引:5,自引:0,他引:5
调查中经常遇到缺失数据的现象。产生缺失数据的原因有多种 ,不同背景下的缺失数据对统计分析会带来不同的影响。提高统计调查数据的质量 ,一方面要采取有效措施减少数据缺失 ,提高调查的回答率 ;另一方面 ,当出现缺失数据时 ,可以对不完整的数据集进行处理 ,以减小由于缺失数据带来的影响。对缺失值有不同的调整方法 ,不同的方法各有特点。本系列将围绕上述问题进行讨论 相似文献
13.
调查中经常遇到缺失数据的现象。产生缺失数据的原因有多种,不同背景下的缺失数据对统计分析会带来不同的影响。提高统计调查数据的质量,一方面要采取有效措施减少数据缺失,提高调查的回答率;另一方面,当出现缺失数据时,可以对不完整的数据集进行处理,以减小由于缺失数据带来的影响。对缺失值有不同的调整方法,不同的方法各有特点。本系列将围绕上述问题进行讨论。 相似文献
14.
缺失数据的偏差校正(系列三) 总被引:2,自引:0,他引:2
调查中的缺失数据会造成估计量的偏倚。有一些简单易行的对数据进行调整的方法 ,如果使用得当 ,可以减小由于缺失数据造成的估计量偏倚。本文介绍了三种常用的方法 :即 ,再抽样调整 ;多次调查数据调整和相关推估法 相似文献
15.
《数理统计与管理》2019,(5):812-822
征信数据中的客户往往呈现"好多坏少"的不平衡结构,这种结构使得一般的分类模型在预测客户信用表现时失效。本文基于零膨胀计数模型的建模思想,分别提出处理因变量为二分类变量、多分类变量、计数变量的零膨胀信用评级模型(ZICSM),将客户结构拆分为稳定好客户、不稳定好客户和坏客户三个部分,利用模型自身优势形成严谨和宽松的两套贷款审批机制。ZICSM模型对目标函数进行权数调整,使模型更加关注"坏"客户,在目标函数中加入惩罚项,使模型具备组变量选择功能。此外,本文提出兼顾风险把控和市场份额的RS得分指标,借以评价信用评级模型的分类效果。模拟研究和实证研究的结果表明,ZICSM模型能够提升金融机构的贷款收益,增加其审批机制的灵活性,适用于处理征信数据的不平衡问题。 相似文献
16.
17.
大数据环境下,数据缺失是一种普遍现象,由此带来数据决策偏差等问题.针对石油生产数据缺失问题,提出一种基于SMOTE和KNN的数据填充SMKNN算法.受不平衡数据集过采样的启发,SMKNN算法在KNN算法基础上采用SMOTE算法选取近邻随机插值产生的数据作为近似缺失值,同时,采用多重填补思想求平均值作为填充数据.分别采用UCI机器学习标准数据集和大庆油田某井区生产数据进行实验,验证了SMKNN算法不仅能填充数据,而且提高了准确率. 相似文献
18.
随着数据服务形态不断衍生,数据资源作为一种新兴生产要素,其交易流通需求呈现爆发式增长。如何从海量数据中识别高质量数据资源,挖掘要素价值,成为数据交易平台获取竞争优势以及提升要素配置效率的关键。本文旨在发现平台交易情境下高质量数据形成的关键因素,提出从大规模、异质数据资源中高效识别高质量数据的方法。首先,基于高质量数据形成过程,构建“固有品质-商品表征”二维识别指标体系;然后,提出K-medoids-NCA-SMOTE-BSVM融合模型,对高、中、低三类不同质量数据进行分类预测;最后,收集真实数据交易平台的API交易数据,开展实证研究。结果显示:相比SVM,WOA-SVM,PSO-SVM,MLP和CNN等方法,K-medoids-NCA-SMOTE-BSVM模型在预测准确率和训练时间方面,均有良好的性能表现。本文提出的识别指标及分类模型,为平台经济下数据质量判断与预测提供了依据,对产品视角下数据质量标准制定以及数据交易定价优化具有一定实践意义。 相似文献
19.
本文给出了巴拿赫空间中线性差分方程的两个多项式二分性概念, 使其在相应空间中的范数的增长速度不快于指数型增长. 并用实例阐释了相关概念之间的关系. 借助于指数二分性的研究方法讨论了多项式二分性的特征, 所得结论推广了指数稳定性及指数二分性中的一些已有结果. 相似文献
20.
《数学的实践与认识》2020,(12)
针对于二分类问题,提出一种改进的带有Pinball损失的一般双子支持向量机,实现了结构风险最小化原则.数值实验表明所提算法相比于其他算法具有一定的优越性,并验证了所提算法对交叉数据集和含有噪声的数据集的可行性和有效性. 相似文献