首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于潜在语义的多类文本分类模型研究
引用本文:叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报(自然科学版),2005,45(9):1818-1822.
作者姓名:叶浩  王明文  曾雪强
作者单位:江西师范大学,计算机信息工程学院,南昌,330027;江西师范大学,计算机信息工程学院,南昌,330027;江西师范大学,计算机信息工程学院,南昌,330027
基金项目:教育部重点科技资助项目(03070);江西省自然科学基金资助项目(0311041)
摘    要:在文本分类中,一个文本往往有多类属性,而目前大多数分类模型均为二元分类模型.因此,提出一种基于潜在语义的多类分类模型.该模型同时考虑文档特征信息和文档的类属信息,在提取文档潜在语义信息的同时把对文档分类贡献大的特征信息保留下来.其结果是既能较好地解决文档中同义词和多义词的问题,又能解决多类属分类问题,并且能够探测到新类.在Reuters文档集上的实验表明,在维数较低的情况下,分类效果比较好,性能比较稳定.

关 键 词:多类分类  潜在语义  潜在语义分类  偏最小二乘
文章编号:1000-0054(2005)S1-1818-05
修稿时间:2005年5月20日

Automatic text multi-classification model based on latent semantic
YE Hao,WANG Mingwen,ZENG Xueqiang.Automatic text multi-classification model based on latent semantic[J].Journal of Tsinghua University(Science and Technology),2005,45(9):1818-1822.
Authors:YE Hao  WANG Mingwen  ZENG Xueqiang
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号