首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
鉴于词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)算法仅考虑新闻文档内特征词的频率,没有考虑类间权重值的影响,基于此,提出了一种改进的TF-IDF算法,让文本实现更好的分类效果.新算法比较特征词在不同类别中的频数,将频数最高的类确定为特征词对该类的文...  相似文献   

2.
李倩 《电子技术》2014,(10):8-11
文章首先介绍文本分类预处理的几种方法及其不足之处,并提出一种改进的特征提取方法。然后,介绍几种文本分类算法,并指出其缺点。最后本文介绍支持向量机算法,结合改进后的文本预处理方法对网络文本进行分类,并通过与KNN对比分析说明了该算法的高效性能。  相似文献   

3.
近些年来突发事件的频发使得人们对该领域的关注越来越多,因此对突发事件进行自动分类的研究,以提高文本分类的效率。在构建突发事件领域专用停用词表的基础上,基于TF-IDF(term frequency–inverse document frequency)特征提取方法和支持向量机文本分类算法,对上海大学突发事件语料库中的332篇文本进行分类。由算法得出的训练模型可以较好地完成突发事件的文本分类任务,由此更为快速和精确的获取到目标文本,减少人工的工作量。  相似文献   

4.
将一种改进的隐马尔可夫模型(HMM)应用于文本分类中,在考虑其前向依赖的同时,需考虑状态的后向依赖性.将当前观测值和和当前状态对其后一状态的依赖性加入模型的学习,这样的改进模型能有效提高文本信息抽取准确率.在文本分类过程研究中,首先对训练样本进行文本预处理,对HMM分类器模型进行参数学习,建立HMM分类器后用测试集进行测试并做出性能评价.在性能评价中用改进的评测指标,可针对不同数据集做出准确评价,以及可对比不同分类工作在同一数据集上的性能,大大提高评价质量.  相似文献   

5.
文章在分析小波函数与径向基函数关系的基础上,构造了一个神经网络联合分类系统。该系统主要由分类层、决策层以及信息反馈与交换模块构成。分类层由小波网络和RBF网络构成,整个系统的联合决策规则采用SUM规则.信息反馈与交换模块的工作原理是基于小波函数与径向基函数的关系。我们对系统各部分做了分析,并对系统整体性能做了测试。  相似文献   

6.
随着移动运营商网络IP化改造日益深入,运营商内部积累了大量跟IP化网络相关的文本,现有处理移动IP化网络文本的方法一般是采用人工分类归档的方式,这种手工的方法有很多不尽如人意的地方,本文在基于文本分类、聚类算法的基础上,提出了一套移动IP化网络文本分类聚类模型,该模型能够对移动IP化网络文本进行自动分类,并进行系统化管理。实验结果表明,该模型的文本分类准确率很高,改变了中国移动在开展IP化过程中缺乏智能化分析系统的现状,提高了网络维护的针对性、主动性、和前瞻性。  相似文献   

7.
8.
人类历史的发展已经进入到网络时代。现在社会信息的发布量和使用量随着网络的发展突飞猛进,这么大的信息量,我们不可能全部的接受。此时,对有用信息快速、精确的掌握就显得尤为重要。方法是随着困难一起产生的,为了解决这个问题,文本自动分类系统就产生了,它的工作原理是对文本的内容在指定的分类体系下进行自动区分类别的过程。目前在所有分类算法中,有一种新兴的机器学习算法,即Boosting算法,这种算法经过科学验证后,其效果是非常理想的,且本身有着其它分类算法无可比拟的优点。  相似文献   

9.
是对消息的一种高度概括,因此,如何有效地对摘要进行快速、准确的识别,是当前中文摘要识别领域的一个重要课题。文章提出TF-IDF和贝叶斯算法相结合的新闻分类方法,通过TF-IDF算法提取短文文本中的特征词集合,捕捉短文文本表达的语义,并计算出相应的TF-IDF值,将TF-IDF值形成特征向量作为贝叶斯算法的输入来实现新闻文本分类,最后根据错误率对预测结果进行评价。试验结果表明,该方法可以将贝叶斯方法与TF-IDF相结合,实现对信息的快速分类。  相似文献   

10.
王丁  运海红  张辉 《信息技术》2005,29(3):64-65
利用贝叶斯算法,通过对训练文本的学习,构建了一个文本分类器,从而实现了本文提出的自动分类的目标。贝叶斯分类算法是现在比较流行的方法,它的分类效果比较好,简单而且高效,可以通过大规模的训练语料提高分类的质量。文本的分类是选择最有可能生成该文本的类。只有建立了知识库,分类进行训练,才可以构造相应的分类器,对相关的文本进行分类。  相似文献   

11.
文章基于流行的非关系型数据库MongoDB,结合Spark机器学习库中的朴素贝叶斯分类器和支持向量机,对豆瓣影评及京东商评进行情感分类,并采用准确率、召回率、F-Measure等指标对分类效果进行评价,最后测试了Spark-MongoDB平台的扩展性能。  相似文献   

12.
With the rapid development of artificial intelligence technology, text categorization technology is becoming more and more mature. However, text categorization in real situations still faces various unconstrained conditions. English text is an important part of text information, it is also an important way for people to get information from abroad. How can everyone get the desired content from the massive data quickly and accurately, it has become a hot issue in current research. This paper improves the current text categorization algorithm based on English quality-related text categorization. The design and implementation of text categorization system are illustrated with an example of English quality-related text categorization system, complete the research work of text categorization algorithm. The core work of this paper is to mine, classify and analyze large amounts of data in English text by using the method of combining cyclic neural network with quality. Finally, the essential features of high quality English texts are obtained. Traditional English text categorization algorithm if the amount of training data is large, it is easy to show some defects such as unclear feature items. In view of these problems, in order to improve the accuracy and flexibility of English text categorization, this paper proposes a quality-related English text categorization method based on cyclic neural network. A mechanism combining attention is proposed to improve the problem of label disorder and make the structure of the model more flexible. The model proposed in this paper is compared and optimized. Experiments show that the accuracy of neural text classification based on quality classification can reach about 96%.  相似文献   

13.
Text classification means to assign a document to one or more classes or categories according to content. Text classification provides convenience for users to obtain data. Because of the polysemy of text data, multi-label classification can handle text data more comprehensively. Multi-label text classification become the key problem in the data mining. To improve the performances of multi-label text classification, semantic analysis is embedded into the classification model to complete label correlation analysis, and the structure, objective function and optimization strategy of this model is designed. Then, the convolution neural network (CNN) model based on semantic embedding is introduced. In the end, Zhihu dataset is used for evaluation. The result shows that this model outperforms the related work in terms of recall and area under curve (AUC) metrics.  相似文献   

14.
赵博  丁华福 《信息技术》2007,31(12):122-124
研究了基于向量空间模型的自动文本分类算法,在对现有分类算法原理深入分析的基础上,针对现有算法的不足,引入了关键向量的概念,提出了一种基于关键向量的文本分类算法,并给出了基于该算法的实验数据。  相似文献   

15.
为高效、精准地判断音乐风格归属,帮助用户快速获取偏好音乐风格,基于群智优化神经网络构建音乐风格分类模型。提取音乐样本的音质、节奏、旋律特征作为模型训练样本输入BP神经网络,通过初始化、隐含层及输出层计算、权值计算等步骤完成神经网络模型训练。采用粒子群算法确定神经网络的最优权值与阈值,粒子群算法首先编码神经网络权值与阈值,其次计算粒子适应度值,更新粒子速度和位置,符合终止条件时输出神经网络的权值与阈值优化结果,并据此构建基于群智优化神经网络的音乐风格分类模型。模型测试结果表明,所提模型在正确区分不同音乐风格的同时,展示了音质、节奏、旋律等特征。  相似文献   

16.
针对当前情感分析任务中使用Word2Vec、GloVe等模型生成的文本词向量,无法有效解决多义词表征、经典神经网络模型无法充分提取文本语义特征等问题,本文提出基于BERT的双通道神经网络模型文本情感分析方法。该方法采用BERT模型生成词向量,BERT模型对下游分类任务进行微调的过程中生成文本词向量的动态表征。然后,将词向量输入由CNN与BiGRU构建的双通道模型进行特征提取,并行获取文本的局部与全局语义特征,并通过注意力机制为输出特征分配相应的权重分值,突出文本的情感极性。最后将双通道输出特征融合进行情感分类。在酒店评论数据集上进行实验,结果表明本文模型与文本情感分析的基线模型相比,在准确率与F1分值上分别提高了3.7%和5.1%。  相似文献   

17.
俸世洲 《电子测试》2016,(19):91-92
本文主要研究高校招生领域Web短文本的表示方法及处理步骤.基于自编码神经网络对输入数据的要求,研究文本预处理的主要技术:中文分词、停用词处理、降维处理,文本向量化表示等技术,并分析了文本表示的处理流程.  相似文献   

18.
主要采用小波神经网络的相关理论和方法对某小区网络的访问流量情况进行建模和预测。利用收集到的网络流量变化情况作为小波网络的训练样本,成功实现了该网络的流量预测。试验仿真结果表明,构建的小波神经网络模型可以很好地实现对网络流量的高精度预测。  相似文献   

19.
《现代电子技术》2016,(20):39-43
当前的文本分类方法无法较好地处理海量文本以及文本特征空间数据,不能打破计算机处理性能和内存的约束,实现文本混沌性分类。而云计算平台可向用户提供需要的运算能力和存储空间。提出一种优化SVM的云计算环境下文本混沌性分类方法,设计Hadoop开源云计算系统,通过该系统中的Map Reduce模型对分类过程进行处理,提高分类的效率。采用优化SVM分类方法将混沌文本分类二次规划过程中的不等式限制变换成等式限制,提高海量文本混沌性分类精度。实验结果表明,所设计分类方法具有更高的处理效率,可以对海量文本数据进行准确的分类。  相似文献   

20.
Method of text representation model was proposed to extract word-embedding from text feature.Firstly,the word-embedding of the dual word-embedding list based on dictionary index and the corresponding part of speech index was created.Then,feature vectors was obtained further from these extracted word-embeddings by using Bi-LSTM recurrent neural network.Finally,the sentence vectors were processed by mean-pooling layer and text categorization was classified by softmax layer.The training effects and extraction performance of the combination model of Bi-LSTM and double word-embedding neural network were verified.The experimental results show that this model not only performs well in dealing with the high-quality text feature vector and the expression sequence,but also significantly outperforms other three kinds of neural networks,which includes LSTM,LSTM+context window and Bi-LSTM.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号