首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种新的中文文本分类特征提取的研究
引用本文:郭飞,张永锋.一种新的中文文本分类特征提取的研究[J].数学的实践与认识,2016(12):125-129.
作者姓名:郭飞  张永锋
作者单位:1. 中国民用航空飞行学院 计算机学院,四川广汉,618307;2. 成都工业学院 信息与计算科学系,四川成都,610041
基金项目:国家自然科研基金联合基金项目(U1233105)
摘    要:特征提取是中文文本分类中的关键,传统的互信息算法没有考虑特征存在负值时,互信息量对分类的影响,因此削弱了这些特征在分类中的作用.首先提出一种改进的互信息算法,对特征和类的互信息量取绝对值的方法来克服这个缺点.然后实现了基于传统互信息KNN算法和改进互信息FV-KNN算法的两种中文文本自动分类系统.最后实验结果表明改进互信息FV-KNN算法在分类准确率、分类招回率和分类速度上都有较大的提高.

关 键 词:特征提取  互信息  改进互信息  KNN  FV-KNN

A New Research on Feature Extraction from Chinese Text Clasification
Abstract:
Keywords:feature extraction  mutual information  improved mutual information  KNN  FV-KNN
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号