首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
为了提高分类器的精度,对分类器的结构进行了改进,提出了一种基于贝叶斯和k-近邻组合分类器的模型,该分类方法结合了贝叶斯方法分类速度较快和k-近邻方法分类准确率较高的优点.实验结果表明,该方法在保证分类速度的前提下,有效地提高了分类准确率.  相似文献   

2.
提出了一种网络信息文本分类模型的建立方法。根据网络报文的特点,抽取其中关键词作为分类特征词条,并以报文关键词进行词频统计分析建立文本分模型。分别进行了基于最近邻决策和K-邻近决策的分类效果试验研究,结果显示:K-近邻决策的分类效果要优于最近邻决策的分类效果。  相似文献   

3.
提出了一种网络信息文本分类模型的建立方法,根据网络报文的特点,抽取其中关键词作为分类特征词条,并以报文关键词进行词频统计分析建立文本分模型,分别进行了基于最近邻决策和K-近邻决策的分类效果试验研究,结果显示,K-近邻决策的分类效果要优于最近邻决策的分类效果。  相似文献   

4.
基于模糊-粗糙集的文本分类方法   总被引:9,自引:0,他引:9  
在文本分类过程中,类别之间的重叠以及标志类别属性的不足会导致类别的边界之间出现模糊不确定性和粗糙不确定性,而传统的k-近邻方法无法解决这一问题;同时,在传统的k-近邻方法以及其他一些改进的k-近邻方法中,最优k值的选取需要通过训练得到.文中借助模糊-粗糙集理论来改进传统的k-近邻方法,并使用基于距离的邻域空间,以不经训练地确定适宜每个待分类文本的k值,最后将所提方法和其他一些k-近邻方法进行了实验比较,结果表明模糊-粗糙集方法能够在一定程度上提高分类的精度和召回率.  相似文献   

5.
使用k近邻、支持向量机和最大熵模型进行中文文本分类的研究,对目前应用较多的k近邻、支持向量机和最大熵模型,分别进行了基于特征词布尔值和基于特征词词频的中文文本分类实验。实验结果显示,在相同的条件下最大熵方法的分类性能最好,支持向量机次之,k近邻稍差。同时发现,在分类过程中引入了词语频率信息时,分类器的性能略有变化,对于最大熵分类准确率下降1%~2%,对于k近邻有所上升,对于支持向量机则相当。除去文本的特殊性影响,这表明不同程度的词语的信息对不同的机器学习算法有不同的影响。  相似文献   

6.
基于中文新闻信息分类体系,探索了中文新闻信息分类与代码的自动分类方法.根据中文新闻信息分类与代码的特点以及初始主题词满足的规则获得分类的初始主题词,利用获得的初始主题词构建中文新闻信息分类与代码体系的特征向量,将文本按该体系进行自动分类,分类结果采用人工抽样分析,一级类目的正确率为72%.  相似文献   

7.
8.
基于FOA-SVM的中文文本分类方法研究   总被引:2,自引:0,他引:2  
中文文本分类方法直接影响分类性能,支持向量机(SVM)在处理文本分类这种高维问题上有明显的优势.SVM的分类精度取决于核函数的核参数和惩罚参数,本文提出了一种用果蝇优化算法(FOA)获取SVM参数的FOA-SVM方法.将FOA-SVM用于中文文本分类,实验结果表明,FOA-SVM能得到较高的分类准确率,在文本分类上表现较强的鲁棒性.  相似文献   

9.
为方便中文文本分类过程算法研究,阐述中文文本分类的基础技术,提出基于构件的中文文本分类技术研究辅助平台.该平台对大多数分类中使用的算法在中文文本分类中的应用效果进行了研究.实验结果表明: 该平台可以通过计算分类器分类准确率的宏平均值比较分类算法与特征选择算法的性能,可以评估语料库的可用性,能够用于研究中文分词、特征选择、分类算法等中文文本分类技术问题.  相似文献   

10.
基于k-近邻分类匹配的虹膜识别技术与应用   总被引:1,自引:0,他引:1  
利用虹膜图像中丰富的结构和纹理特征作为身份鉴别的依据,与其他生物特征识别相比,具有更高的可靠性.虹膜识别系统包括虹膜图像采集、虹膜图像预处理、特征提取、匹配与识别等部分.该文提出一种基于k-近邻分类器虹膜识别方法,该方法先对虹膜图像进行定位、归一化和增强等预处理,利用Gabor滤波实现虹膜纹理特征的提取,再用k-近邻分类器进行匹配,达到了识别的目的.实验结果表明,该方法是可行的.  相似文献   

11.
为了更加高效地对文本数据进行描述,提出将文本向量表示为统计流形上的点,并用核方法将文本的生成模型和判别模型结合起来.用DCM统计流形上扩散核来表示文本空间上的距离度量,提出DCM流形上的核近邻算法用于文本分类.实验结果表明,在两个实验语料库上基于DCM流形的核近邻算法的准确率和召回率优于对比算法或与对比算法相当.  相似文献   

12.
指出基于TfIdf的常用文本特征提取方法在文本分类问题中的缺陷,进而提出使用特征词的分布状态、词频和文本频三者相结合的方式提取文本特征的观点,给出了计算特征词权重的新方法,提出了新的文本分类方法. 试验表明,该方法能够最大限度保留文本的特征,并且可有效避免向量空间模型中的维数灾难问题,能应用于大规模文本分类.  相似文献   

13.
一种组合型中文文本分类特征选择方法   总被引:1,自引:1,他引:1  
根据基于频数分布和基于互信息的特征选择模式的特点,将传统的tf-idf因子以及基于互信息的特征选择方法分别进行了改进,并在此基础上提出了一种新的组合型特征选择方法。试验结果表明,该算法提高了文本分类的准确率。  相似文献   

14.
针对BERT模型领域适应能力较差,无法解决训练数据类别数量不均衡和分类难易不均衡等问题,提出一种基于WBBI模型的服务文本分类方法。首先通过TF-IDF算法提取领域语料中的词汇扩展BERT词表,提升了BERT模型的领域适应性;其次,通过建立的BERT-BiLSTM模型实现服务文本分类;最后,针对数据集的类别数量不均衡和分类难易不均衡问题,在传统焦点损失函数的基础上提出了一种可以根据样本不均衡性特点动态调整的变焦损失函数。为了验证WBBI模型的性能,在互联网获取的真实数据集上进行了大量对比试验,实验结果表明:WBBI模型与通用文本分类模型TextCNN、BiLSTM-attention、RCNN、Transformer相比Macro-F1值分别提高了4.29%、6.59%、5.3%和43%;与基于BERT的文本分类模型BERT-CNN、BERT-DPCNN相比,WBBI模型具有更快的收敛速度和更好的分类效果。  相似文献   

15.
经典的LSTM分类模型,一种是利用LSTM最后时刻的输出作为高一级的表示,而另一种是将所有时刻的LSTM输出求平均作为高一级的表示.这两种表示都存在一定的缺陷,第一种缺失了前面的输出信息,另一种没有体现每个时刻输出信息的不同重要程度.为了解决此问题,引入Attention机制,对LSTM模型进行改进,设计了LSTM-Attention模型.实验结果表明:LSTM分类模型比传统的机器学习方法分类效果更好,而引入Attention机制后的LSTM模型相比于经典的文本分类模型,分类效果也有了一定程度的提升.  相似文献   

16.
首先, 基于点互信息与信息检索(PMI IR)算法, 提出一种Laplace平滑情感判定(LS-SO)算法, 对情感词典与表情符号情感词典进行自动扩充, 得到了具有一定规模、 高质量的情感词典, 包括基础情感词典、 目标情感词典、 网络用语情感词典、 表情符号情感词典、 否定词词典、 疑问词词典、 程度副词词典和连词词典. 其次, 通过细化文本语义分析规则计算文本情感值. 实验结果验证了该方法的有效性.  相似文献   

17.
一种改进的朴素贝叶斯文本分类方法   总被引:1,自引:0,他引:1  
针对网络中所存在的大量以网页等非结构化形式存在的文本资源,提出一种改进的朴素贝叶斯分类方法.首先,通过卡方检验方法求文档特征并对文档降维,提高特征词区分性信息;然后,以文本特征来代替原始词条进行朴素贝叶斯对类.实验表明,该方法不仅理论上易于建立和更新,而且分类的精确率也得到提高.  相似文献   

18.
文中介绍了使用核覆盖算法进行中文文本分类.研究了采取不同的特征选取方法、利用核覆盖算法进行文本分类的区别.通过实验,除互信息外的其它几种特征选取方法在核覆盖算法分类过程中均取得了较优的实验结果,可看出核覆盖算法在文本分类中是一个不错的方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号