基于Hadoop云平台的中文微博情感分类研究 |
| |
作者单位: | ;1.江苏大学计算机科学与通信工程学院 |
| |
摘 要: | 随着用户发表微博数量的急剧增长,数据集已经达到TB级甚至PB级。针对在单机环境下无法很好地完成海量微博数据集的情感分类任务,文中提出一种基于Hadoop云平台的中文微博情感分类方案。结合微博文本特有的语言特征,依次在MapReduce框架上实现了预处理、特征选择、文本向量化表示、KNN分类算法的并行化。通过对比单机和集群的实验结果表明:Hadoop云平台下的情感分类效率能随着集群规模的扩增而快速提升,并且不影响其分类效果。
|
关 键 词: | 情感分类 Hadoop 海量数据 KNN分类算法 并行化 |
Study on sentiment classification for Chinese microblog based on Hadoop |
| |
Abstract: | |
| |
Keywords: | |
|
|