一种新的中文文本分类特征提取的研究 |
| |
引用本文: | 郭飞,张永锋.一种新的中文文本分类特征提取的研究[J].数学的实践与认识,2016(12):125-129. |
| |
作者姓名: | 郭飞 张永锋 |
| |
作者单位: | 1. 中国民用航空飞行学院 计算机学院,四川广汉,618307;2. 成都工业学院 信息与计算科学系,四川成都,610041 |
| |
基金项目: | 国家自然科研基金联合基金项目(U1233105) |
| |
摘 要: | 特征提取是中文文本分类中的关键,传统的互信息算法没有考虑特征存在负值时,互信息量对分类的影响,因此削弱了这些特征在分类中的作用.首先提出一种改进的互信息算法,对特征和类的互信息量取绝对值的方法来克服这个缺点.然后实现了基于传统互信息KNN算法和改进互信息FV-KNN算法的两种中文文本自动分类系统.最后实验结果表明改进互信息FV-KNN算法在分类准确率、分类招回率和分类速度上都有较大的提高.
|
关 键 词: | 特征提取 互信息 改进互信息 KNN FV-KNN |
A New Research on Feature Extraction from Chinese Text Clasification |
| |
Abstract: | |
| |
Keywords: | feature extraction mutual information improved mutual information KNN FV-KNN |
本文献已被 CNKI 万方数据 等数据库收录! |
|