首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
特征提取是中文文本分类中的关键,传统的互信息算法没有考虑特征存在负值时,互信息量对分类的影响,因此削弱了这些特征在分类中的作用.首先提出一种改进的互信息算法,对特征和类的互信息量取绝对值的方法来克服这个缺点.然后实现了基于传统互信息KNN算法和改进互信息FV-KNN算法的两种中文文本自动分类系统.最后实验结果表明改进互信息FV-KNN算法在分类准确率、分类招回率和分类速度上都有较大的提高.  相似文献   

2.
考虑航空交通网络状态特征对航班延误的影响,将上游的航班延误状态特征加入到预测因素中,并使用梯度提升决策树(Gradient Boost Decision Tree,GBDT)的方法构建了航班延误预测模型.与以往的决策树算法、SVM分类算法、RF算法相比,GBDT算法在航班延误分类预测上具有更高的准确度,可有效提高机场运行管理效率.  相似文献   

3.
K-近邻算法(KNN)是模式识别众多算法中一个简单有效的分类方法,是最好的文本分类算法之一,在机器学习分类算法中占有相当大的地位,是最简单的机器学习算法之一,通过对数据空间结构局部的精细刻画,探寻对多种数据空间结构特点的泛化方法,提高算法的分类准确性.探索能够表征空间各向异性的方法,各向异性是不同属性维度上,类型变量随距离变化的变异程度.并采用标准数据集Banknote Dataset的数据空间结构进行分析,在分析其空间结构的基础上,进行改进K-近邻方法预测.改进后的KNN算法表现优异,很大程度上提高了算法预测的准确性.  相似文献   

4.
公安案件文本语义特征提取指的是从案件文本中提取案件的作案方式等特征.从本质上说问题是一类特殊的文本分类问题.构建了基于卷积神经网络(CNN)的文本语义特征提取方法框架.构建了CNN文本分类模型;针对多标记特征提取问题,使用问题转换法结合CNN分类方法来提取特征;讨论了分类中不均衡数据带来的问题,改进了CNN模型中的损失函数.实证结果表明:使用的CNN模型对于文本分类的效果优于传统的支持向量机等分类模型;使用问题转换法中的二值相关法结合CNN模型进行多标记语义特征提取准确率较高;改进后的CNN模型更加适合于不均衡数据的分类,宏平均F1值有了显著的提升.  相似文献   

5.
主要研究垃圾文本识别问题,利用苹果手机评论文本特征向量建立了SVM分类模型对垃圾文本进行识别,并与BP神经网络判别模型结果进行对比,得出苹果手机前400组训练样本的判别正确率为71%,后196组测试样本的判别正确率为70.12%.故得到,影响垃圾观点文本识别效果的主要原因为:1)评论文本的特征项的提取和文本特征空间向量求解.2)判别分类方法的选择,其中SVM文本识别效果最优.  相似文献   

6.
高光谱遥感数据波段数目较多,且波段之间的相关性高,影响到敏感波段在地物识别中的作用,并造成大量冗余计算,降低时效.提出了一种随机森林结合递归特征消除的敏感特征选择方案,以提高高光谱遥感地物识别的精度与效率.通过RF-RFE特征选择方法得到最优特征组合,并运用LightGBM和XGBoost等提升算法来提高分类精度.在江苏省常州的茶树数据集上进行分类实验时,在原始数据上的分类精度达到了94.27%和94.45%;在特征选择出的最优特征子集上进行实验时,分类精度达到了94.40%和94.36%.实验结果表明,该方案的分类精度要优于决策树和朴素贝叶斯等传统分类算法,同时大幅减少了运算量,取得了较好的识别效果,具有一定的推广和应用价值.  相似文献   

7.
在Bagging算法基础上,运用马田系统进行特征选择,形成双重扰动改善神经网络集成的分类性能.实验表明,双重扰动增加了集成网络个体精度和差异度,基于MTS-Bagging算法的分类性能相比于Bagging有明显提高.  相似文献   

8.
文本聚类是聚类技术的重要研究领域.该技术根据文本的相似特征或相似表达式对文本进行聚类,使得属于同类的文本具有最大的相似性,而属不同类文本具有最大的差异性.与其它文字相比,蒙古文的结构和书写方式具有许多特征.本文结合K-means与克隆免疫算法提出了一种称为ICKM的新型聚类技术.四种元素集上的仿真实验说明了我们提出的方法在蒙古文聚类的有效性.  相似文献   

9.
基于蚁群算法的模糊分类系统设计   总被引:1,自引:0,他引:1  
提出了一种基于最大-最小蚁群算法的模糊分类系统设计方法.该方法通过两个阶段来实现:特征变量选择和模型参数优化.首先采用蚁群算法对特征变量进行选择,得到一组具有较高分辩性能的特征变量,提高模型的解释性;在模型结构确定后,蚁群算法从训练样本中提取信息对模型的参数进行优化,在保证模型精确性的前提下,构造具有较少变量数目及规则数目的模糊模型,实现了精确性与解释性的折衷.最后将本方法运用到Iris和Wine数据样本分类问题中,并将结果与其它方法进行比较,仿真结果证明了该方法的有效性.  相似文献   

10.
给出了一个确定含参数偏微分方程(组)的完全对称分类微分特征列集算法,该算法能够直接、系统地确定偏微分方程(组)的完全对称分类.用给出的算法获得了含任意函数类参数的线性和非线性波动方程完全势对称分类.这也是微分形式特征列集算法(微分形式吴方法)在微分方程领域中的新应用.  相似文献   

11.
本文讨论了中文文本挖掘的三个问题:分词、关键词提取和文本分类。对分词问题,介绍了基于层叠隐马尔可夫模型的ICTCLAS分词法,以及将词与词之间的分隔视为缺失数据并用EM算法求解的WDM方法;对关键词提取问题,提出了贝叶斯因子法,并介绍了使用稀疏回归的CCS方法;对文本分类问题,介绍了根据关键词频率建立分类器的方法,以及先建立主题模型再根据主题概率建立分类器的方法。本文通过两组文本数据对上述方法进行比较,并给出使用建议。  相似文献   

12.
We investigate whether narrative disclosures in 10-K and 10K-405 filings contain value-relevant information for predicting market performance. We apply text classification techniques from computer science to machine code text disclosures in a sample of 4280 filings by 1236 firms over five years. Our methodology develops a model using documents and actual performance for a training sample. This model, when applied to documents from a test set, leads to performance prediction. We find that a portfolio based on model predictions earns significantly positive size-adjusted returns, indicating that narrative disclosures contain value-relevant information. Supplementary analyses show that the text classification model captures information not contained in document-level features of clarity, tone and risk sentiment considered in prior research. However, we find that the narrative score is not providing information incremental to traditional predictors such as size, market-to-book and momentum, but rather affects investors’ use of price momentum as a factor that predicts excess returns.  相似文献   

13.
Journal of Heuristics - Document vectorization with an appropriate encoding scheme is an essential component in various document processing tasks, including text document classification, retrieval,...  相似文献   

14.
The two-dimensional representation of documents which allows documents to be represented in a two-dimensional Cartesian plane has proved to be a valid visualization tool for Automated Text Categorization (ATC) for understanding the relationships between categories of textual documents, and to help users to visually audit the classifier and identify suspicious training data. This paper analyzes a specific use of this visualization approach in the case of the Naive Bayes (NB) model for text classification and the Binary Independence Model (BIM) for text retrieval. For text categorization, a reformulation of the equation for the decision of classification has to be written in such a way that each coordinate of a document is the sum of two addends: a variable component P(d|ci), and a constant component P(ci), the prior of the category. When plotted in the Cartesian plane according to this formulation, the documents that are constantly shifted along the x-axis and the y-axis can be seen. This effect of shifting is more or less evident according to which NB model, Bernoulli or multinomial, is chosen. For text retrieval, the same reformulation can be applied in the case of the BIM model. The visualization helps to understand the decisions that are taken to order the documents, in particular in the case of relevance feedback.  相似文献   

15.
This paper describes a method for periodic subject-related search based on composition of the method of keyword search and subject-related filtering with the use of text classifiers. We consider various classification algorithms from the standpoint of their efficiency in the solution of the problem under study.  相似文献   

16.
The consequences for particle classification of the Volovich hypothesis that spacetime geometry is non-archimedean at the Planck scale are explored. The multiplier groups and universal topological central extensions of the p-adic Poincaré and Galilean groups are determined. The text was submitted by the author in English.  相似文献   

17.
A classification of \({\text {SL}}(n)\) contravariant Minkowski valuations on convex functions and a characterization of the projection body operator are established. The associated LYZ measure is characterized. In addition, a new \({\text {SL}}(n)\) covariant Minkowski valuation on convex functions is defined and characterized.  相似文献   

18.
De Bruyn  B.  Gao  M. 《Designs, Codes and Cryptography》2022,90(9):1963-1981
Designs, Codes and Cryptography - In this paper, we complete the classification of the caps in $$\text{ PG }(n,q)$$ having the property that on every tangent line L, there exists a unique point...  相似文献   

19.
基于动态规划,利用反向搜索的方法,通过计算词语的最大“花费”给出了中文文本的切分算法,从而建立了一个能够消除中文分词中切分歧义的中文分词模型。通过对模型中算法求解的运行效率及空间耗费进行分析得出,在统计意义上,该算法具有接近与文本规模成线性关系的复杂度,空间的耗费是常数规模的。  相似文献   

20.
A new method for detecting user access to irrelevant documents based on estimating the document text membership in typical subject areas of the analyzed user is proposed. The typical subject areas are formed using subject area modeling implemented via orthonormal nonnegative matrix factorization. An experimental study with real corporate correspondence formed from an Enron data set demonstrates the high classification accuracy of the proposed method, compared to traditional approaches.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号