首页 | 本学科首页   官方微博 | 高级检索  
     

基于改进RI方法的文本聚类
作者姓名:熊玮  白越  刘爱国  吴洁洁  肖建
作者单位:东华理工大学经济与管理学院; 南昌航空大学环境与化学工程学院; 南昌大学信息工程学院
摘    要:旨在通过考虑特征词汇的潜在语义和自身的重要性来提高文本聚类效果,研究基于RI方法的文本向量表示方法。首先,对基于RI方法构建的特征词汇随机索引向量中+1和-1向量元素出现位置进行约束,以避免在构建特征词汇上下文向量时可能造成该特征词汇潜在语义丢失现象;其次,在生成文本向量时考虑特征词汇自身重要性来改进权值的计算;最后,在测试数据上对基于RI方法的文本向量表示进行聚类效果测试与对比分析,结果表明采用基于RI方法能提高文本聚类效果。

关 键 词:文本聚类   RI方法   特征词汇随机索引向量   特征词汇上下文向量   文本向量  
本文献已被 CNKI 等数据库收录!
点击此处可从《南昌大学学报(理科版)》浏览原始摘要信息
点击此处可从《南昌大学学报(理科版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号