针对大规模数据的分布一致缺失值插补算法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

针对大规模数据的分布一致缺失值插补算法

作者姓名：	余嘉茵何玉林崔来中黄哲学

作者单位：	1. 深圳大学计算机与软件学院大数据所;2. 广东省人工智能与数字经济实验室(深圳)

基金项目：	国家自然科学基金面上项目(61972261);;广东省自然科学基金面上项目(2314050006683);

摘要：	缺失值插补(missing value imputation,MVI)作为数据挖掘领域的重要研究分支,旨在为机器学习算法的训练提供高质量的数据支持。不同于现有的以算法性能提升为导向的MVI算法,为对大规模数据的缺失值进行有效插补,该文提出一种以数据结构还原为导向的数据分布一致MVI(distribution consistency-based MVI, DC-MVI)算法。首先,DC-MVI算法基于概率分布一致性原则构建了用于确定最优插补值的目标函数;其次,利用推导出的可行缺失值优化规则获取与原始完整值保持最大分布一致性且方差最为接近的插补值;最后,在分布式环境下,针对大数据的随机样本划分(random sample partition, RSP)数据块并行训练DC-MVI算法,获得大规模数据缺失值对应的插补值。实验结果表明：DC-MVI算法不仅能生成与原始完整值保持给定显著性水平下概率分布一致的插补值,还具有比另外5种经典的和3种最新的MVI算法更快的插补速度和更好的插补效果,进而证实DC-MVI算法是一种可行的大规模数据MVI算法。
关键词：	文字信息处理缺失值插补分布一致性最大均值差异大规模数据随机样本划分分布式计算

设为首页 | 免责声明 | 关于勤云 | 加入收藏