首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
面对稀缺、专业性强的汉维双语医疗平行语料库建设,本文探索数据采集、标准化、去噪、自动录入方法,进行语料库特征分析,并根据语料数据特性,设计语料库网页检索系统.目前已建成110多万字、2.6万句汉语医疗语料和3 000句对汉维双语对齐语料,不仅对构建中小型语料库有参考价值,而且奠定了医疗自然语言处理研究基础,尤其汉维双语对齐语料,将促进机器翻译技术在医疗领域突破,对新疆边远地区无汉语表达能力的少数民族群众获得医疗救助搭建桥梁.  相似文献   

2.
双语短语对抽取是基于短语的统计机器翻译中短语翻译模型训练的关键步骤,但由于汉维平行语料库规模有限,数据稀疏问题严重.本文提出了一种改进的短语抽取算法,该算法首先考虑词对齐矩阵中一个汉语词对齐到多个维吾尔语词的情况(包括不连续),然后利用Och方法抽取短语对,最后考虑维吾尔语SOV语序结构特点,抽取双语短语.实验表明,该算法能够较准确地且尽可能多地抽取汉维短语对,从而提高翻译模型的质量.  相似文献   

3.
译后编辑器是提高翻译系统译文质量的重要方法之一,它的效率影响整个翻译系统的质量和实用水平.目前,还未发现对维汉/汉维机器翻译译后编辑问题的专门研究.本文对维汉/汉维统计机器翻译系统的翻译结果进行分析,设计并实现了支持维汉/汉维编辑界面的译后编辑器,并详细介绍了编辑器的核心功能及其实现方法.该译后编辑器对维汉/汉维机器翻译系统生成的译文进行编辑,使用词干提取、拼写校对、lucence.net等技术提高了编辑效率.经编辑纠正后的译文校正稿以句子为单位保存在记忆库,人工纠正后的未登录词保存在词典数据库,进而提高机器翻译系统生成译文的质量.实验表明,此译后编辑器对基于实例和基于统计引擎的维汉/汉维翻译结果的后编辑提出了较好的解决方案.  相似文献   

4.
通过对商品评论的挖掘,商家可以更好地了解消费者的需求从而及时改善产品的设计。目前,针对商品评论的挖掘大多数采用的方法是提取有效的情感特征并利用分类器进行分类。然而由于电商评论文本表述方式多样、行文不规范,口语化等特点,数据稀疏,文档特征维度过高,样本不均衡以及情感词典领域依赖性等问题都导致情感特征的提取过程愈发困难。为了解决这些问题,论文提出一整套针对电商评论挖掘方法,其融合多种策略构建电商领域情感词典;将文本长度作为特征;结合语料库对停用词表进行优化;将文档频率和TF-IDF算法结合进行特征选择和特征加权。论文以热水器评论作为语料库,以支持向量机为核心对所提出方法进行验证,实验结果证明所提出的方法能在降低文本维度的同时可大幅度提高情感分类的准确度。  相似文献   

5.
双语语料库的自动对齐已成为机器翻译研究中一个十分重要的研究课题.目前的句子对齐方法有基于长度的方法和基于词汇的方法,本文根据汉文-维吾尔文的特点,在分析目前双语句子对齐方法的基础上,提出了基于译文的对齐方法,通过使用一部翻译较完整的词典作为桥梁,将汉维句子关联起来.根据维吾尔语文本中的单词,在词典中找到其对应的译文,并将译文到汉语句子中去匹配,根据评价函数和动态规划算法找到对齐句对.  相似文献   

6.
支持向量机在解决非线性及高维模式识别中表现出许多特有的优势,被广泛应用在文本分类领域。但是其核函数及其参数的选择对分类效果具有很大的影响,单一核函数难以很好地解决文本分类问题。因此,本文选取了三个常用的核函数进行两两组合,利用加权组合核的形式来弥补单核自身特点可能带来的缺点,然后利用人工免疫算法(Immune algorithm,IA)对组合核进行参数寻优,以提高文本分类效果。实验分析证明,此方法有效。  相似文献   

7.
随着信息时代数据量成倍的增长,传统的文本相似度检测方法已经无法处理大规模的文本数据.为此,提出了一种基于Hadoop集群技术的文本相似度仿真检测模型.该检测模型分为三步:第一步,利用Hadoop工具搭建实验平台,并针对该平台进行硬件和软件的优化;第二步,把文档转化为集合,使用改进的基于Map Reduce编程模型的Shingling算法;第三步,提出一种分布式的New Minhash算法求签名矩阵,然后利用Jaccard系数计算出相似度,选出相似的文档.实验证明:对于相同操作,优化后的性能耗时减少了近5.65%.该仿真模型不仅能够更加精确的求出文本相似度,而且能够更好的适应分布式平台处理大规模的文本数据,同时拥有良好的扩展性.  相似文献   

8.
本文利用常微方程系统二维重构变换的雅可比行列式,对强迫Brusselator吸引子进行了分框计算,确定出二维重构的延迟时间.  相似文献   

9.
为提高文本匹配过程中对实体上下文和语义关联信息的学习能力,提出一种融合实体上下文特征的深度文本语义匹配模型。该模型通过学习深度多视图语义交互信息和实体上下文特征匹配矩阵来计算文本的综合匹配得分,采用双向长短时记忆网络和共注意力机制获取文本的局部语义特征并进行多视图向量交互匹配,同时,针对文本中提取到的实体计算上下文特征,通过实体匹配矩阵和卷积神经网络进行实体上下文语义匹配。在SNLI、MultiNLI和Quora Question Pairs数据集上分别与已有基准模型对比,实验结果表明,相比经典深度文本匹配模型,本文提出的融合实体上下文特征的文本匹配模型可以有效提升文本匹配的准确度。  相似文献   

10.
语音语料库是语音识别和语音合成技术研究的基础.由于维吾尔语文字与语音特征、维吾尔语语音语料库的建立、管理、使用之工作不仅工作量巨大,且具有一定的复杂性,这就不得不开发维吾尔语语音数据库管理软件.本文首先研究维吾尔语语音语料库的设计过程,包括语音文本的设计、语音录制、语音库的标注、并在此基础上论述维吾尔语语音语料管理软件的总体功能设计以及部分关键技术的实现方法.  相似文献   

11.
旨在通过考虑特征词汇的潜在语义和自身的重要性来提高文本聚类效果,研究基于RI方法的文本向量表示方法。首先,对基于RI方法构建的特征词汇随机索引向量中+1和-1向量元素出现位置进行约束,以避免在构建特征词汇上下文向量时可能造成该特征词汇潜在语义丢失现象;其次,在生成文本向量时考虑特征词汇自身重要性来改进权值的计算;最后,在测试数据上对基于RI方法的文本向量表示进行聚类效果测试与对比分析,结果表明采用基于RI方法能提高文本聚类效果。  相似文献   

12.
在传统的图灵回退语言模型的基础上,提出了一种增强的图灵回退语言模型.这种增强的方法通过3个算法实现,包括语言模型的实现流程,以及统计语言模型中三元语法串、二元语法串和一元语法串的概率计算的方法,并将未登录词的计算结合起来.通过利用大规模语料库进行实验,验证了这种改进的N元语法语言模型能较好解决传统语言模型中的二元语法串、一元语法串和未登录词计算等问题.  相似文献   

13.
基于情感文本分析技术对股票研究报告中的投资建议进行分类.提取股票研究报告中的"组合特征";采用改进的卡方统计方法进行特征提取,并通过支持向量机(SVM)和朴素贝叶斯算法进行分类,验证分类效果;探讨了权重计算、特征维度和样本数量对分类效果的影响.基于东方财富网上采集的14 000篇股票研究报告的实验表明,通过提取"组合特征"、部分特征维度以及对训练样本重采样,可以取得较好的分类效果.  相似文献   

14.
面对舆情信息的动态性、跨领域性、面向主题等特点,目前已有的领域本体学习方法难以适应舆情本体知识的自动构建.本文采用信息爬取技术收集热点舆情文本信息,根据构建模型自动识别主题进行归类,并对识别后的主题文本提取名词性词汇或者短语作为候选概念集;采用语义相似度方法计算候选概念间的相关度,根据相关度计算各概念的权值,并进行排序;结合词频变化的方法抽取与主题相关的核心概念.实验结果表明,本文方法可有效地抽取与舆情主题相关的核心概念,对舆情本体的构建以及后期的知识共享和重用起到积极作用.  相似文献   

15.
针对图文微博中图像、文本和社交数据的异构性,在提取图像、文本和社交等多模态特征的基础上,本文提出了面向微博图文关系识别的统一特征空间映射方法.该方法首先选择图像特征空间为统一特征空间,然后基于遗传算法求解映射矩阵,将文本特征和社交特征映射至统一特征空间,最后利用支持向量机在统一特征空间中建立图文关系识别模型.采用统一特征空间映射方法前后的对比实验结果表明,在总正确率上,面向微博图文关系识别的统一特征空间映射方法是有效的.  相似文献   

16.
提出了一种基于语句的查询扩展方法以及语句向量的融合策略,使得扩展后的查询语句的查询性能优于原始查询语句;基于微软高性能计算平台HPC Server和查询扩展策略,设计实现了一个分布式文本检索系统DQSSQE.实验结果表明,在检索性能方面,所提出的查询扩展策略能够有效的提高查准率,召回率上也有一定的提高;在分布式检索计算性能方面,DQSSQE系统具有较好的计算加速比,随着文本集规模的增加,其计算性能的优越性体现明显.  相似文献   

17.
文本情绪原因识别是情感分析中一个新的研究方向,旨在从文本中自动检测出导致某一情绪产生的原因。针对循环神经网络在长文中出现的长期依赖问题,本文提出了一种基于注意力机制和双向长短时记忆(attention model and bi-directional long short-term memory,AM-BiLSTM)神经网络模型的情绪原因识别方法。该方法采用字符向量表示文本语义信息,使用BiLSTM模型提取文本特征,该过程结合了人工提取的子句特征,在训练模型时,引入了注意力机制来优化模型性能,使用softmax对子句进行分类。实验结果表明本文方法对情绪原因的识别是有效的。  相似文献   

18.
利用语言学专家人工标注的语料库对维吾尔文动词进行研究,并总结出了维吾尔文动词范畴的连接规则框架.在人工标注的实例库的基础上,收集了词缀连接规则集合,经人工纠正构建了词缀连接规则库集合.最终,结合人工标注实例库、词缀连接规则库及维吾尔文动词范畴的连接规则框架提出了维吾尔文动词词干提取方法,该方法的独立实验准确率达到了84.15%.  相似文献   

19.
为了提高文本情感倾向性分类的精度,提出了一种文本情感倾向性分析方法 bfsmPMI-SVM.该方法在文本预处理阶段,滤除了对表述主题情感倾向性不强烈的语句以及无关停用词等;用改进的PMI-IR算法对情感倾向性词语抽取,并自动扩充了正负基准词集;改进了互信息(MI)算法,在MI的计算中增加了词频因子(f)、类别差异因子(b)和符号因子(s).利用改进的MI算法选择文本特征,融合其他一些文本特征,用SVM实现文本情感倾向性分类.实验以食品安全领域爬取文本为例,与PMI-IR-SVM和MI-SVM算法的倾向分析相比,本文方法的正向文本准确率、负向文本准确率、召回率和F1值等都有提高.  相似文献   

20.
在基于实例的哈萨克语汉语机器翻译研究中,翻译质量的高低跟实例句子相似度计算方法有直接的关系.本文提出一种哈萨克语句子相似度计算方法,即采用基于词特征和基于向量特征相结合的相似度计算法,计算过程中使用了同义词替换.句子相似度计算中需要解决的关键问题是怎样快速匹配实例.为解决这个问题,所设计的快速查找模块能够快速从实例库中筛选出实例集合,进行相似度计算.实验结果表明:快速查找模块可以提高实例句子查找速度,同义词替换可以提高相似度准确性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号