首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于改进的朴素贝叶斯文本分类研究
引用本文:安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25.
作者姓名:安艳辉  董五洲  游自英
作者单位:1. 河北省信息产业厅教育中心,河北,石家庄,050071
2. 河北省教育考试院信息处,河北,石家庄,050091
3. 石家庄邮电职业技术学院计算机系,河北,石家庄,050031
摘    要:文本分类(Text Categorization,TC)指的是把一个自然语言文本,根据其主题归入到预先定义好的类别中的过程.文本分类是自然语言处理的一个基础性工作,也是近年来人们研究的热点话题.针对朴素贝叶斯算法在小样本集分类效果不高的原因进行了分析,对其进行了改进和调整,提出了基于改进的朴素贝叶斯文本分类方法,试验结果表明,该方法取得了更好的效果.

关 键 词:文本分类  朴素贝叶斯  K近邻  知网  中文分词
文章编号:1001-9383(2007)01-0022-04
修稿时间:2006年12月3日

The text categorization study on improval Na(i)ve Bayes
AN Yan-hui,DONG Wu-zhou,YOU Zi-ying.The text categorization study on improval Na(i)ve Bayes[J].Journal of The Hebei Academy of Sciences,2007,24(1):22-25.
Authors:AN Yan-hui  DONG Wu-zhou  YOU Zi-ying
Abstract:Text categorization is such a procedure that it can classify the text automatically by computer,and the categories have been defined before classify. It's a hot topic in our study area and it's also a basic work in the area of natural language disposal.Here on the nave Bayes algorithm is modified and the result is better than before.A text categorization study on improval nave Bayes is presented.The result of the experition indicates that this method have better effect.
Keywords:Text categorization  Nave bayes  KNN  HowNet  Chinese word segmentation
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号