首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 70 毫秒
1.
单词向量化是自然语言处理领域中的重要研究课题之一,其核心是对文本中的单词建模,用一个较低维的向量来表征每个单词.生成词向量的方式有很多,目前性能最佳的是基于神经网络语言模型生成的分布式词向量,Google公司在2012年推出的Word2vec开源工具就是其中之一.分布式词向量已被应用于聚类、命名实体识别、词性分析等自然语言处理任务中,它的性能依赖于神经网络语言模型本身的性能,并与语言模型处理的具体任务有关.本文从三个方面介绍基于神经网络的分布式词向量,包括:经典神经网络语言模型的构建方法;对语言模型中存在的多分类问题的优化方法;如何利用辅助结构训练词向量.  相似文献   

2.
传统词向量表示模型往往忽视了单词间的句法形态结构,导致模型预测准确率不高. 为此,提出基于fastText模型的词向量表示改进算法. 首先,在训练模型数据集上,引入stopwords处理技术,剔除一些无意义介词等对预测模型干扰,减少噪声数据;其次,针对fastText模型中n-gram分解格式进行限定,将分解条件设置为符合英文单词的组成结构;最后,去除fastText模型中单词前后缀标记符,减少无用分解对模型预测产生干扰. 实验结果表明,与fastText模型相比,所提出的改进模型在单词关系评分、语义相似性、句法相似性均取得较好的准确率.  相似文献   

3.
针对当前中文词嵌入模型无法较好地建模汉字字形结构的语义信息,提出了一种改进的中文词嵌入模型.该模型基于词、字和部件(五笔编码)等粒度进行联合学习,通过结合部件、字和词来构造词嵌入,使得该模型可以有效学习汉字字形结构所蕴含的语义信息,在一定程度上提升了中文词嵌入的质量.  相似文献   

4.
20年来中文信息处理取得了巨大成绩,这是有目共睹的.当前摆在学界面前的一个重要任务是确立全局的战略目标,并尽快在一些社会急需的发展方向上取得实质性的突破.本文首先对国内外自然语言处理技术的一些最重大成果作了一个简单的介绍,然后通过一些具体的实例来说明统计语言模型在自然语言处理中的广泛应用.  相似文献   

5.
对于终身主题模型而言,先验知识的正确性对后续的建模任务起到了至关重要的作用.因此,提出了一种基于语义相似度改进的少样本终身主题模型SS-AMC(Semantic Similarity-AMC),利用BERT获取共现词对的词向量,计算其语义相似度,通过设置相似度阈值进而优化知识库中的先验知识,以提升少样本终身主题模型的性能.在中英文数据集上的实验结果表明,SS-AMC模型的主题一致性较基线模型有了明显的提升.  相似文献   

6.
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文提出了一种新颖的词相似度定义,在词相似度的基础上,还首次给出了词集合相似度的定义.基于相似度,提出了一种自下而上的分层聚类算法,这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,因而提高聚类的使用效果.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.  相似文献   

7.
互联网中出现的短文本内容短小,相互共享的词汇较少,因此在分类过程中容易出现大量的集外词,导致分类性能降低。鉴于此,提出了一种基于词矢量相似度的分类方法,首先利用无监督的方法对无标注数据进行训练得到词矢量,然后通过词矢量之间的相似度对测试集中出现的集外词进行扩展。通过与基线系统的对比表明,该方法的分类正确率均优于基线系统1%~2%,尤其是在训练数据较少的情况下,所提出的方法的正确率相对提高10%以上。  相似文献   

8.
基于词向量空间模型的中文文本分类方法   总被引:4,自引:0,他引:4  
大多文本分类方法是基于向量空间模型的,基于这一模型的文本向量维数较高,导致分类器效率难以提高。针对这一不足,该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表示成空间向量,通过训练得到词-类别支持度矩阵,根据待分文本的词和词-类别支持度矩阵计算文本与类别的相似度。实验证明,这一分类方法取得了较高的分类精度和分类效率。  相似文献   

9.
服务描述是服务发现的基础.现有的服务发现多从关键词入手进行匹配,本文给出了一种通过服务描述进行相似度计算的方法,采用了The Porter Stemming Algorithm对服务描述进行预处理,引进向量空间模型的方法对描述进行度量,对比实验证明,该方法能充分利用服务描述的特点来计算服务之间的匹配度,是有效的和可行的.  相似文献   

10.
提出了一种应用本体层次树和向量空间模型生成服务间相似性的度量方法,该方法能够在语义层次上获取更加符合人类直观认识的不同服务间的相似度,通过与传统相似度度量方法的对比,验证了该方法的有效性.  相似文献   

11.
基于依存关系的句法分析统计模型   总被引:3,自引:2,他引:3  
利用语义、语法等语言知识,建立一种基于依存关系的句法分析统计模型,并利用改进的句法分析模型进行句法分析实验.研究结果表明:利用依存关系、互信息对词聚类,能解决模型数据稀疏问题;模型可同时考虑几种语义依存关系;该模型是一个词汇化的句法分析模型,能结合分词、词性标注进行句法分析;概率上下文无关语法中由概率的上下文无关性假设和祖先结点无关性假设引起的问题在该模型中得到有效解决;精确率和召回率分别为86.96%和85.25%,其综合指标F与Collins的头驱动句法分析模型的F相比提高4.75%.  相似文献   

12.
文本挖掘中中文歧义字段的自动分词是计算机科学面临的一个难题.针对汉语书写时按句连写,词间无间隙,歧义字段分词困难的特点,对典型歧义中所蕴含的语法现象进行了归纳总结,建立了供词性编码使用的词性代码库.以此为基础,通过对具有特殊语法规则的歧义字段中的字、词进行代码设定,转化为神经网络能够接受的输入向量表示形式,然后对样本进行训练,通过改进BP神经网络的自学习来掌握这些语法规则.训练结果表明:算法在歧义字段分词上达到了93.13%的训练精度和92.50%的测试精度.  相似文献   

13.
胡婧  刘伟  马凯 《科学技术与工程》2019,19(33):296-301
为了探讨中文病历文本预处理后高维稀疏性的特点,导致文本分类精度低、算法模型收敛速度慢等性能问题,提出一种基于粗糙集的词袋(BOW)模型结合支持向量机(SVM)的文本分类算法(BOW+SVM)。该算法首先采用BOW模型对特征词提取构建高维度文本空间向量,然后利用粗糙集的属性约简算法对文本特征处理,把模糊的、冗余的属性从决策规则中清除,降低空间向量维数,最后利用所提纯的特征与SVM分类器交叉结合进行文本分类。在Python+TensorFlow环境中设计六种交叉结合的算法仿真对比实验,结果表明:基于BOW+SVM高血压病历文本分类模型精准度可达97%。可见改进后的模型,能够解决样本分部不均,克服高维度稀疏特征空间的问题,有效改善病案管理工作流程。  相似文献   

14.
基于非特定发音人拉祜语孤立词语音识别研究   总被引:1,自引:2,他引:1  
选用200个拉祜语常用词,以词为识别单元,利用语音识别工具箱HTK开展非特定人拉祜语孤立词的语音识别研究.研究发现:特定发音人的识别率比较稳定,针对非特定发音孤立词,通过增加模型的混合高斯数目,其识别率得到显著提高,使得识别正确率保持在99%以内,为拉祜语孤立词识别提供了有效方法.  相似文献   

15.
口语对话系统中的词类概率模型和知识表示   总被引:1,自引:0,他引:1  
语言分析和知识库管理是口语理解与对话系统的两个重要组成部分 ,作者在这两方面提出了一些新的方法。一是提出并实现了词类概率模型 ,它具有较高的性能和较低的时间复杂度 ,是基于句法规则的语义分析和语言理解的基础。此外还提出了与数据无关的多叉树层次结构模型的知识表示方法 ,它具有很强的表达能力并易于扩展。在此基础上 ,实现了一个用以提供清华大学地理、办公、商业及其它一些相关信息检索、基于文本的口语对话系统 Easy Nav。实验表明 ,上述模型和方法具有很好的性能  相似文献   

16.
通过对中文机构名的语法语义特性进行分析,将中文机构名分成前部词和特征词,提出了一种基于统计的识别方法.使用成熟语料库的训练数据,计算候选机构名的特征词可信度、前部词首词可信度和前部词中部可信度,最终得到机构名构词可信度,并与给定阈值比较,实现了中文机构名识别.在开放性实验中,达到了85.57%的召回率和94.37%的准确率.  相似文献   

17.
提出一种利用规则与统计相结合的方法用于英汉机译系统中以消解语义级歧义 ,建立了一种根据单词之间的词语搭配关系以消除歧义的模型。该模型利用英汉双语语料选择合理的词组语义 ,对有歧义的单词作出标注。在此基础上给出了语义消歧的学习算法 ,并建立了一套有效的提高召回率的消歧算法。算法在英汉机译系统中的实际应用使正确率提高了约 10 % ,效果显著。  相似文献   

18.
基于转换的无指导词义标注方法   总被引:5,自引:0,他引:5  
词义标注是自然语言处理的难题之一。该文提出用于文本词义标注的转换规则自动获取算法及相应的词义排歧算法。该算法用可能的句法关系对语境进行限制,减少了训练数据中的噪音; 为提高学习算法的速度,提出利用预排序方法减少规则搜索次数,以及只调整变化部分数据的计算方法; 并给了改善召回率的词义排歧算法。在近5 万词的语料库上对本算法进行了实验,开放测试的词义排歧正确率为743% 。  相似文献   

19.
佤语是云南省西南部的一种跨境语言,构建佤语语音识别系统对国家安全、跨境文化交流和经济贸易都有着重要的意义.基于HTK平台,针对1 860个佤语常用词进行特定人孤立词语音识别.语音语料来源为录音棚和田野录音,语音规模录音棚男性2人、女性2人,田野录音男性3人、女性2人,每人每个词发音5遍,总的语料数量为83 700条.实验结果表明,对于上述的语料,进行的基于HTK的佤语特定人孤立词语音识别正确率在92%以上.  相似文献   

20.
基于结构特征聚类的相似代码检索方法   总被引:1,自引:1,他引:0  
针对基于图的相似代码检测方法复杂度高、对代码多样化识别能力有限等问题,提出基于结构特征聚类的方法。首先将代码表示为控制依赖树,在此基础上执行代码标准化,消除代码表达方式的多样化,以便识别语法表示不同,而语义相似的代码;然后采用特征向量描述程序的结构信息,将复杂的图的相似度求解问题转换为简单的相似向量的聚类问题,快速提取可能相似的候选代码。实验结果表明,方法与Gabel等人提出的方法相比,可以识别更多的代码多样化。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号