首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于主题模型的半监督网络文本情感分类研究
引用本文:李扬,孔雯婧,谢邦昌.基于主题模型的半监督网络文本情感分类研究[J].数理统计与管理,2016(6):961-971.
作者姓名:李扬  孔雯婧  谢邦昌
作者单位:1. 中国人民大学应用统计科学研究中心,北京100872;中国人民大学统计学院,北京100872;中国人民大学统计咨询研究中心,北京100872;2. 中国人民大学统计学院,北京100872;中国人民大学统计咨询研究中心,北京100872;3. 台北医学大学大数据研究中心,台北11031
基金项目:中国人民大学科学研究基金(中央高校基本科研业务费专项资金资助)项目(15XNI011)
摘    要:针对网络评论文本的情感分类问题中存在的数据的不平衡性、无标记性和不规范性问题,提出一种基于主题的闽值调整的半监督学习模型,通过从非结构化文本中提取主题特征,对少量标注情感的文本训练分类器并优化指标调整闽值,达到识别用户评论的情感倾向的目的。仿真研究证明阈值调整的半监督模型对数据非平衡性和无标记性具有较强的适应能力。在实证研究中,对酒店评论文本数据构建的文本情感分类器显示该模型可以有效预测少数类评论样本的情感极性,证实了基于主题模型的闽值调整半监督网络评论文本情感分类模型在实际问题中的适用性与可行性。

关 键 词:情感分类  不平衡数据  半监督学习  主题模型

Study on Semi-Supervised Sentiment Classification of Web Context Based on Topic Model
Abstract:The study on the sentiment classification is challenged by the imbalanced,unmarked and nonstandard web context data.In this paper,we proposes an adaptive semi-supervised topic-based classifier to figure the above issues.Numerical study shows that the proposed method has strong adaptability to the imbalanced,unmarked datasets.A sentiment classification of hotel comment context gains effectiveness in predicting sentimental polarity of minority group in real study,which has confirmed the applicability and feasibility of this adaptive semi-supervised topic-based classifier in practical problems.
Keywords:sentiment classification  imbalanced data  semi-supervised learning  topic model
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号