共查询到20条相似文献,搜索用时 78 毫秒
1.
鉴于词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)算法仅考虑新闻文档内特征词的频率,没有考虑类间权重值的影响,基于此,提出了一种改进的TF-IDF算法,让文本实现更好的分类效果.新算法比较特征词在不同类别中的频数,将频数最高的类确定为特征词对该类的文... 相似文献
2.
文章首先介绍文本分类预处理的几种方法及其不足之处,并提出一种改进的特征提取方法。然后,介绍几种文本分类算法,并指出其缺点。最后本文介绍支持向量机算法,结合改进后的文本预处理方法对网络文本进行分类,并通过与KNN对比分析说明了该算法的高效性能。 相似文献
3.
近些年来突发事件的频发使得人们对该领域的关注越来越多,因此对突发事件进行自动分类的研究,以提高文本分类的效率。在构建突发事件领域专用停用词表的基础上,基于TF-IDF(term frequency–inverse document frequency)特征提取方法和支持向量机文本分类算法,对上海大学突发事件语料库中的332篇文本进行分类。由算法得出的训练模型可以较好地完成突发事件的文本分类任务,由此更为快速和精确的获取到目标文本,减少人工的工作量。 相似文献
4.
将一种改进的隐马尔可夫模型(HMM)应用于文本分类中,在考虑其前向依赖的同时,需考虑状态的后向依赖性.将当前观测值和和当前状态对其后一状态的依赖性加入模型的学习,这样的改进模型能有效提高文本信息抽取准确率.在文本分类过程研究中,首先对训练样本进行文本预处理,对HMM分类器模型进行参数学习,建立HMM分类器后用测试集进行测试并做出性能评价.在性能评价中用改进的评测指标,可针对不同数据集做出准确评价,以及可对比不同分类工作在同一数据集上的性能,大大提高评价质量. 相似文献
5.
文章在分析小波函数与径向基函数关系的基础上,构造了一个神经网络联合分类系统。该系统主要由分类层、决策层以及信息反馈与交换模块构成。分类层由小波网络和RBF网络构成,整个系统的联合决策规则采用SUM规则.信息反馈与交换模块的工作原理是基于小波函数与径向基函数的关系。我们对系统各部分做了分析,并对系统整体性能做了测试。 相似文献
6.
随着移动运营商网络IP化改造日益深入,运营商内部积累了大量跟IP化网络相关的文本,现有处理移动IP化网络文本的方法一般是采用人工分类归档的方式,这种手工的方法有很多不尽如人意的地方,本文在基于文本分类、聚类算法的基础上,提出了一套移动IP化网络文本分类聚类模型,该模型能够对移动IP化网络文本进行自动分类,并进行系统化管理。实验结果表明,该模型的文本分类准确率很高,改变了中国移动在开展IP化过程中缺乏智能化分析系统的现状,提高了网络维护的针对性、主动性、和前瞻性。 相似文献
7.
8.
《电子技术与软件工程》2017,(8)
人类历史的发展已经进入到网络时代。现在社会信息的发布量和使用量随着网络的发展突飞猛进,这么大的信息量,我们不可能全部的接受。此时,对有用信息快速、精确的掌握就显得尤为重要。方法是随着困难一起产生的,为了解决这个问题,文本自动分类系统就产生了,它的工作原理是对文本的内容在指定的分类体系下进行自动区分类别的过程。目前在所有分类算法中,有一种新兴的机器学习算法,即Boosting算法,这种算法经过科学验证后,其效果是非常理想的,且本身有着其它分类算法无可比拟的优点。 相似文献
9.
10.
11.
12.
With the rapid development of artificial intelligence technology, text categorization technology is becoming more and more mature. However, text categorization in real situations still faces various unconstrained conditions. English text is an important part of text information, it is also an important way for people to get information from abroad. How can everyone get the desired content from the massive data quickly and accurately, it has become a hot issue in current research. This paper improves the current text categorization algorithm based on English quality-related text categorization. The design and implementation of text categorization system are illustrated with an example of English quality-related text categorization system, complete the research work of text categorization algorithm. The core work of this paper is to mine, classify and analyze large amounts of data in English text by using the method of combining cyclic neural network with quality. Finally, the essential features of high quality English texts are obtained. Traditional English text categorization algorithm if the amount of training data is large, it is easy to show some defects such as unclear feature items. In view of these problems, in order to improve the accuracy and flexibility of English text categorization, this paper proposes a quality-related English text categorization method based on cyclic neural network. A mechanism combining attention is proposed to improve the problem of label disorder and make the structure of the model more flexible. The model proposed in this paper is compared and optimized. Experiments show that the accuracy of neural text classification based on quality classification can reach about 96%. 相似文献
13.
Text classification means to assign a document to one or more classes or categories according to content. Text classification provides convenience for users to obtain data. Because of the polysemy of text data, multi-label classification can handle text data more comprehensively. Multi-label text classification become the key problem in the data mining. To improve the performances of multi-label text classification, semantic analysis is embedded into the classification model to complete label correlation analysis, and the structure, objective function and optimization strategy of this model is designed. Then, the convolution neural network (CNN) model based on semantic embedding is introduced. In the end, Zhihu dataset is used for evaluation. The result shows that this model outperforms the related work in terms of recall and area under curve (AUC) metrics. 相似文献
14.
研究了基于向量空间模型的自动文本分类算法,在对现有分类算法原理深入分析的基础上,针对现有算法的不足,引入了关键向量的概念,提出了一种基于关键向量的文本分类算法,并给出了基于该算法的实验数据。 相似文献
15.
为高效、精准地判断音乐风格归属,帮助用户快速获取偏好音乐风格,基于群智优化神经网络构建音乐风格分类模型。提取音乐样本的音质、节奏、旋律特征作为模型训练样本输入BP神经网络,通过初始化、隐含层及输出层计算、权值计算等步骤完成神经网络模型训练。采用粒子群算法确定神经网络的最优权值与阈值,粒子群算法首先编码神经网络权值与阈值,其次计算粒子适应度值,更新粒子速度和位置,符合终止条件时输出神经网络的权值与阈值优化结果,并据此构建基于群智优化神经网络的音乐风格分类模型。模型测试结果表明,所提模型在正确区分不同音乐风格的同时,展示了音质、节奏、旋律等特征。 相似文献
16.
针对当前情感分析任务中使用Word2Vec、GloVe等模型生成的文本词向量,无法有效解决多义词表征、经典神经网络模型无法充分提取文本语义特征等问题,本文提出基于BERT的双通道神经网络模型文本情感分析方法。该方法采用BERT模型生成词向量,BERT模型对下游分类任务进行微调的过程中生成文本词向量的动态表征。然后,将词向量输入由CNN与BiGRU构建的双通道模型进行特征提取,并行获取文本的局部与全局语义特征,并通过注意力机制为输出特征分配相应的权重分值,突出文本的情感极性。最后将双通道输出特征融合进行情感分类。在酒店评论数据集上进行实验,结果表明本文模型与文本情感分析的基线模型相比,在准确率与F1分值上分别提高了3.7%和5.1%。 相似文献
17.
本文主要研究高校招生领域Web短文本的表示方法及处理步骤.基于自编码神经网络对输入数据的要求,研究文本预处理的主要技术:中文分词、停用词处理、降维处理,文本向量化表示等技术,并分析了文本表示的处理流程. 相似文献
18.
19.
20.
Method of text representation model was proposed to extract word-embedding from text feature.Firstly,the word-embedding of the dual word-embedding list based on dictionary index and the corresponding part of speech index was created.Then,feature vectors was obtained further from these extracted word-embeddings by using Bi-LSTM recurrent neural network.Finally,the sentence vectors were processed by mean-pooling layer and text categorization was classified by softmax layer.The training effects and extraction performance of the combination model of Bi-LSTM and double word-embedding neural network were verified.The experimental results show that this model not only performs well in dealing with the high-quality text feature vector and the expression sequence,but also significantly outperforms other three kinds of neural networks,which includes LSTM,LSTM+context window and Bi-LSTM. 相似文献