首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Hadoop云平台的中文微博情感分类研究
作者单位:;1.江苏大学计算机科学与通信工程学院
摘    要:随着用户发表微博数量的急剧增长,数据集已经达到TB级甚至PB级。针对在单机环境下无法很好地完成海量微博数据集的情感分类任务,文中提出一种基于Hadoop云平台的中文微博情感分类方案。结合微博文本特有的语言特征,依次在MapReduce框架上实现了预处理、特征选择、文本向量化表示、KNN分类算法的并行化。通过对比单机和集群的实验结果表明:Hadoop云平台下的情感分类效率能随着集群规模的扩增而快速提升,并且不影响其分类效果。

关 键 词:情感分类  Hadoop  海量数据  KNN分类算法  并行化

Study on sentiment classification for Chinese microblog based on Hadoop
Abstract:
Keywords:
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号