基于logistic回归模型的大数据分布式两步子抽样算法 |
| |
引用本文: | 李莉莉,杜梅慧,张璇.基于logistic回归模型的大数据分布式两步子抽样算法[J].数理统计与管理,2022(5):858-866. |
| |
作者姓名: | 李莉莉 杜梅慧 张璇 |
| |
作者单位: | 1. 青岛大学经济学院;2. 南开大学经济学院;3. 中国标准化研究院 |
| |
基金项目: | 国家社科基金项目(2019BTJ028); |
| |
摘 要: | 随着大数据时代的到来,分布式存储系统被广泛应用,这使得数据的分析面临较大的挑战。本文主要基于文1]提出的两步子抽样算法思想,提出分布式两步子抽样算法,利用该算法得到的参数估计量具有一致性和渐近正态性。采用数值模拟及真实数据预测,进一步对算法进行评估,结果表明,分布式两步子抽样算法与简单随机抽样算法相比精度更高,与全样本相比,在保证精度损失很小的基础上,节约了CPU运行时间,提高了算法效率。
|
关 键 词: | 大数据 分布式存储 两步子抽样算法 logistic回归模型 |
|
|