首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
文本分类中特征选择方法研究   总被引:2,自引:0,他引:2  
对四种特征选择方法:互信息、信息增益、x2统计和期望交叉熵作了简要的介绍,并且结合KNN分类算法,使用查全率、查准率、宏平均和微平均对四种特征选择方法分别进行评估,提出并讨论了互信息修正的两种方法.  相似文献   

2.
文本是情感表达的重要方式,在挖掘文本包含的情感之前必须要进行预处理。本文对预处理的过程进行综述,包括文本分词、去停用词、特征选择、特征项加权、生成VSM模型、情感词典建立等步骤。  相似文献   

3.
针对现有的新闻文本情感分析任务中,单一模型提取文本特征的片面性,且无法充分提取新闻文本语义等特征问题,提出一种基于门控单元特征融合的BERT-CNN情感分析方法。该方法分别采用BERT语言预训练模型与卷积神经网络(CNN)对新闻文本的特征向量进行提取;然后采用门控循环单元对提取到的文本特征进行特征融合;再输入到Softmax层进行新闻文本分类;最后从精准率、召回率和F1-Score三个维度对比BERT、BERT-CNN、BERT-DPCNN和BERT-ERNIE的实验结果。实验结果表明,当分类场景更换为情感识别时,BERT-CNN依旧具有强大的语义捕捉能力,证明了BERT-CNN的泛化能力;另外,从原BERT的提升效果看,基于门控单元特征融合的BERT-CNN方法(提升2.07%)比词向量的方法(提升0.31%)更高。这一结果也证明了基于门控单元特征融合的BERT-CNN方法的有效性。  相似文献   

4.
中文文本分类中的特征选择算法研究   总被引:34,自引:0,他引:34  
比较了文档频率、信息增益、互信息、X^2统计量、期望交叉熵、文本证据权以及几率比等7种常用于文本分类的特征选择算法。实验采用国家“八六三计划”中文文文本语料库和Rocchio分类器对以上的特征选择算法分别进行评估,测评结果表明,几率比法的性能优于其它特征选择算法。  相似文献   

5.
通过在不同文本数据集上的试验表明,文中提出的算法具有不错的表现。与文本分类中常用的特征选择算法IG、CHI相比,文中算法是有效的且能够提高分类的精确率。  相似文献   

6.
文本分类中改进型互信息特征选择的研究   总被引:5,自引:2,他引:3  
互信息是文本分类中常用的特征选择方法.提出了一种新的基于互信息的特征选择方法.首先分析了特征选择影响文本分类精度的因素,将这些因素组合起来表征特征对于分类的强弱,并用公式直观地表示由组合因素计算出的特征值,根据这些值得大小选择对分类影响大的特征.最后理论证明了其可行性,并通过实验证明了该方法在提高分类精度方面比传统方法提高了10%.  相似文献   

7.
基于类别分布差异和VPRS特征选择的文本分类方法   总被引:3,自引:0,他引:3  
权值计算和特征降维是影响文本分类的精度和效率的两个重要步骤。该文首先根据特征词的类别分布差异进行特征过滤;然后,分析传统的权值公式TF-IDF的缺点,采用改进的权值计算公式简记为TF-CDF,依据TF-CDF公式计算每个特征词的权值,生成文档集的向量空间模型VSM;接着,提出了一种基于可变精度粗糙理论(VPRS)的特征选择进一步选择对分类贡献度大的特征,并用SQL实现。最后利用支持向量机LibSVM分类器进行实验,实验结果表明特征过滤和选择方法及TF-CDF权值公式有助于提高分类精度和分类效率。  相似文献   

8.
特征选择是机器学习和模式识别领域的一个关键问题。文中详细分析研究一类基于K近邻分类间隔的特征选择算法,并着重讨论当K〉1时,特征选择的评价准则和搜索策略的设计,同时在多个数据集上验证其性能。  相似文献   

9.
面向现代战场中各类感知设备产生海量实时数据,消除冗余及无关数据是提升信息质量,降低军事信息系统资源开销的关键技术。提出了一种基于特征选择的数据降维方法,实验结果表明该方法能够大幅消减噪音数据,有效提升信息质量,降低系统开销,适用于现代战争环境。  相似文献   

10.
频繁模式挖掘在分类问题中得到了广泛的应用,大量的工作利用频繁模式挖掘对分类问题进行特征选择,但对于为什么频繁模式挖掘可以在分类问题中进行有效的特征选择则缺乏系统的研究.为了为频繁模式挖掘在分类问题中的特征选择应用提供理论基础,需要确立特征的支持度与特征分类能力之间的关系,本文以特征的信息增益作为分类能力的评价准则,讨论其与特征支持度之间的联系.首先证明了信息增益是特征支持度的上凸函数;然后,在二类问题和多类问题情况下,分别证明了具有低支持度或高支持度的特征具有有限的信息增益,即具有低支持度或高支持度的特征具有有限的分类能力.最后,通过仿真实验验证了支持度与信息增益之间的关系,为频繁模式挖掘在分类问题中的应用提供了理论基础.  相似文献   

11.
情感分类是观点挖掘的热点研究之一,微博文本情感分类具有很高的应用价值.鉴于传统特征选择方法存在语义缺陷,采用神经网络语言模型,提出了基于概率模型的对词向量进行权重分配的深层特征表示方法,构建文本语义向量.将文本深层特征与浅层特征融合,构建融合语义信息的特征向量,弥补传统特征选择方法语义的缺陷.采用SVM层次结构分类模型,实现多种情感分类.实验结果表明,采用特征融合的层次结构情感分类方法,能有效提高微博情感分类的准确率.  相似文献   

12.
陈圣  熊钦 《电子设计工程》2012,20(18):142-144,147
为了实现对模式识别、信号处理等领域中数据的有效表达,提出了一种基于规范互信息和动态冗余信号识别技术的特征选择方法。该方法采用规范互信息对特征相关性和冗余性进行测量,并通过一种动态冗余信号识别技术在特征全集中进行冗余特征的筛选。分类实验结果表明所提特征选择方法性能优于典型的特征选择方法。  相似文献   

13.
在高光谱图像分类中,丰富的数据提升了其地物 识别能力。然而,由于样本特 征数大且有标记训练样本点少,导致“维度灾难”问题。本文提出一种基于无监督特征选择 的高光谱图像分类方 法,该方法同时考虑数据的流形嵌入映射和稀疏表达,将特征选择问题转化为一个优 化问题,数据的流形嵌入和稀疏表达作为约束项加入目标函数。设计了三个目标函 数,第一个目标函数描述流形学习的局部性原则,第二个目标函数将原始样本点回归 到低维嵌入空间,第三个目标函数对回归系数进行正则化。针对目标函数非凸的问 题,用迭代的方法来解这个约束优化问题,给出了解该优化问题的算法。优选特征用 于参与后续的分类识别任务。在真实的高光谱数据集上的实验表明,新方法能够提高 分类的精度。  相似文献   

14.
The traditional short-text classification's accuracy usually highly relies on statistical feature selection. Owing to the fact that short-text has inherent defects such as short length, weak signal and less features. It is hard to avoid noise words when doing feature extension which will highly influence the accuracy of classification. In order to solve the above problem, this paper proposes a semantic dictionary method for short-text classification. The method builds a set of domain dictionary by analyzing the specific characteristics in certain field. As each word's weight in the dictionary is designed according to the correlation between the word and the category, classification accuracy has improved to some extent. Then, in order to enhance dictionary vocabulary coverage, association rules are utilized to automatically extend semantic dictionary. Finally, an experiment based on micro-blog data is conducted which shows that the method has a good effect.  相似文献   

15.
The main aim of this study is to select the optimal set of genes from microarray cancer datasets that contribute to the prediction of specific cancer types. This study proposes the enhancement of the feature selection filter algorithm based on Joe's normalized mutual information and its use for gene selection. The proposed algorithm is implemented and evaluated on seven benchmark microarray cancer datasets, namely, central nervous system, leukemia (binary), leukemia (3 class), leukemia (4 class), lymphoma, mixed lineage leukemia, and small round blue cell tumor, using five well‐known classifiers, including the naive Bayes, radial basis function network, instance‐based classifier, decision‐based table, and decision tree. An average increase in the prediction accuracy of 5.1% is observed on all seven datasets averaged over all five classifiers. The average reduction in training time is 2.86 seconds. The performance of the proposed method is also compared with those of three other popular mutual information–based feature selection filters, namely, information gain, gain ratio, and symmetric uncertainty. The results are impressive when all five classifiers are used on all the datasets.  相似文献   

16.
微博短文本中存在一些相同或相近、但与主题关系不大的词项,对准确度量文本之间的相似性具有较大的干扰作用,影响微博话题被发现的质量。提出一种基于文本内容与结构化信息相结合的特征词选择算法,能有效提取具有代表性的特征词,并对文本、话题间相似度的计算策略进行改进,然后将特征词选择算法与相似度计算方法融合,应用于微博文本数据实现话题发现。实验结果表明,本算法能有效降低话题发现的平均漏检率与误检率,提高话题发现质量。  相似文献   

17.
特征子集搜索是数据挖掘分类任务中一个关键性的难题,常用的过滤器方法忽略了基因之间的相关性,此外,现有的解决方法并不是专门针对处理小样本数据,因此在特征选择方面表现出了不稳定性.为了解决上述问题,在实例学习的基础上提出了一种新型的混合封装过滤算法,并且提出了一种具有封装器评价体系的分类器算法——协同性子集搜索(CSS).选取几个高维小样本的癌症数据集作为数据来源,对提出的评价体系进行了实验测试,结果表明,该方法在准确性及稳定性方面较其他方法表现更好.  相似文献   

18.
高光谱图像分类是近年来的研究热点。其数据的 高维性引发了“维度灾难”问 题。数据降维成为解决问题的关键。针对高光谱数据有标记训练样本点匮乏的特点, 提出用无监督的特征选择方法对高光谱数据进行降维。该方法能够同时保持原始高光 谱数据的判别能力和局部几何结构。为了保持判别能力,用所选特征对原始高光谱数 据进行重构,利用重构误差最小化将特征选择问题转化为优化问题。为了保持局部几 何结构,建立近邻图,并将其转化为正则项加入目标函数中。通过迭代梯度下降方法 解此优化问题,得出优选特征子集参与高光谱图像分类识别任务。在真实数据集上的 实验表明,新方法能够提高分类识别的精度。  相似文献   

19.
烟丝化学成分可以由实验方法提取出来,但其关键致香成分很难确定。针对这一问题,一般采用化学分析方法,但分析耗时比较长。根据烟丝化学成分与香气风格关系,使用基于信息增益的特征选择方法进行提取致香成分。通过计算烟丝化学成分中的每个属性的信息增益,从中挑选出信息增益大于。的值作为特征选择的结果进行分类预测。实验结果表明,使用该方法能够得到较准确的关键致香成分,与传统特征选择方法相比,其特征数据集的分类结果也更加准确,可以作为烟叶香型分类的有效工具。  相似文献   

20.
基于关联规则的特征选择方法   总被引:2,自引:0,他引:2  
提出了一种基于关联规则的特征选择方法,在市场分析中,人们用关联规则来发掘大量数据集中项目之间的关系。关联规则的方法非常适用于图像分析中的特征选择,可以自动地选出可信度较高的特征。使用这一方法挑选合适的纹理特征用于图像分类,并对结果进行分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号