首页 | 本学科首页   官方微博 | 高级检索  
     

针对大规模数据的分布一致缺失值插补算法
作者姓名:余嘉茵  何玉林  崔来中  黄哲学
作者单位:1. 深圳大学计算机与软件学院大数据所;2. 广东省人工智能与数字经济实验室(深圳)
基金项目:国家自然科学基金面上项目(61972261);;广东省自然科学基金面上项目(2314050006683);
摘    要:缺失值插补(missing value imputation,MVI)作为数据挖掘领域的重要研究分支,旨在为机器学习算法的训练提供高质量的数据支持。不同于现有的以算法性能提升为导向的MVI算法,为对大规模数据的缺失值进行有效插补,该文提出一种以数据结构还原为导向的数据分布一致MVI(distribution consistency-based MVI, DC-MVI)算法。首先,DC-MVI算法基于概率分布一致性原则构建了用于确定最优插补值的目标函数;其次,利用推导出的可行缺失值优化规则获取与原始完整值保持最大分布一致性且方差最为接近的插补值;最后,在分布式环境下,针对大数据的随机样本划分(random sample partition, RSP)数据块并行训练DC-MVI算法,获得大规模数据缺失值对应的插补值。实验结果表明:DC-MVI算法不仅能生成与原始完整值保持给定显著性水平下概率分布一致的插补值,还具有比另外5种经典的和3种最新的MVI算法更快的插补速度和更好的插补效果,进而证实DC-MVI算法是一种可行的大规模数据MVI算法。

关 键 词:文字信息处理  缺失值插补  分布一致性  最大均值差异  大规模数据  随机样本划分  分布式计算
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号