基于双层采样的主动式数据流挖掘方法 |
| |
作者姓名: | 张匡燕 刘三民 李京阳 |
| |
作者单位: | 安徽工程大学计算机与信息学院 |
| |
基金项目: | 安徽省自然科学基金资助项目(1608085MF147);;安徽省高校自然科学研究重大项目(KJ2019ZD15); |
| |
摘 要: | 为解决传统数据流分类算法难以解决动态数据流环境中概念变化和样本标注等难题,根据主动学习原理,提出基于双层采样的主动式数据流挖掘方法。该方法的采样策略分别基于学习模型的改变期望和误差缩减两个方面设计实现,选择出具有代表性和信息量丰富的未标注样本,经专家标注后增量更新学习模型;采用聚类方法实现局部感知的概念漂移检测,以增强采样策略的有效性。试验结果表明:主动式数据流挖掘方法在降低样本标注代价的同时,可提高模型的分类能力和概念漂移的适应性,相比其他数据流挖掘方法具有一定优势。
|
关 键 词: | 数据流挖掘 主动学习 聚类分析 概念漂移 样本标注 |
|
|