首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 531 毫秒
1.
随着信息技术的普及与推广,双语电子文本资源呈指数形式增长,这给构建大规模双语语料库提供了可能.双语对齐作为语料库加工过程中的关键技术,已经引起研究者的高度重视.针对目前可收集到的双语资源大都没有做到段落对齐,本文提出了基于回车符段落对齐基础上的多层次分段对齐思想,充分利用汉文-维吾尔文双语文本中的语言特点,根据双语文本中的数字信息,找出互为译文的句对,从而达到高质量的段落对齐目的.  相似文献   

2.
面对稀缺、专业性强的汉维双语医疗平行语料库建设,本文探索数据采集、标准化、去噪、自动录入方法,进行语料库特征分析,并根据语料数据特性,设计语料库网页检索系统.目前已建成110多万字、2.6万句汉语医疗语料和3 000句对汉维双语对齐语料,不仅对构建中小型语料库有参考价值,而且奠定了医疗自然语言处理研究基础,尤其汉维双语对齐语料,将促进机器翻译技术在医疗领域突破,对新疆边远地区无汉语表达能力的少数民族群众获得医疗救助搭建桥梁.  相似文献   

3.
英汉双语文本中的情绪可以通过英语和汉语的单语或者双语形式来表达。然而,以往的研究主要集中在单语文本的情绪分析,只有少数研究侧重于英汉双语文本。为提高英汉双语文本情绪预测效果,本文结合情绪词典方法与深度学习方法,使用联合特征与Bi-LSTM模型来对英汉双语文本进行情绪预测。首先基于情绪词典抽取出双语文本中包含的情绪词特征,然后联合情绪词特征与双语文本特征输入至Bi-LSTM模型进行特征学习,最后将学习到的深度语义特征输入到分类器中进行情绪预测。实验结果表明,该方法对英汉双语文本的情绪预测有良好的效果。  相似文献   

4.
译后编辑器是提高翻译系统译文质量的重要方法之一,它的效率影响整个翻译系统的质量和实用水平.目前,还未发现对维汉/汉维机器翻译译后编辑问题的专门研究.本文对维汉/汉维统计机器翻译系统的翻译结果进行分析,设计并实现了支持维汉/汉维编辑界面的译后编辑器,并详细介绍了编辑器的核心功能及其实现方法.该译后编辑器对维汉/汉维机器翻译系统生成的译文进行编辑,使用词干提取、拼写校对、lucence.net等技术提高了编辑效率.经编辑纠正后的译文校正稿以句子为单位保存在记忆库,人工纠正后的未登录词保存在词典数据库,进而提高机器翻译系统生成译文的质量.实验表明,此译后编辑器对基于实例和基于统计引擎的维汉/汉维翻译结果的后编辑提出了较好的解决方案.  相似文献   

5.
双语短语对抽取是基于短语的统计机器翻译中短语翻译模型训练的关键步骤,但由于汉维平行语料库规模有限,数据稀疏问题严重.本文提出了一种改进的短语抽取算法,该算法首先考虑词对齐矩阵中一个汉语词对齐到多个维吾尔语词的情况(包括不连续),然后利用Och方法抽取短语对,最后考虑维吾尔语SOV语序结构特点,抽取双语短语.实验表明,该算法能够较准确地且尽可能多地抽取汉维短语对,从而提高翻译模型的质量.  相似文献   

6.
本文提出了一个基于规则的哈萨克语词干提取的一种解决方法.该方法首先找到待切分词的所有可能的词干,然后以带变形词的词典和分类的附加成分表为基础,对找到的若干个词干进行词法分析,最后确定正确的词干.  相似文献   

7.
在传统的教学评价体系中,评价的结果受人为主观因素影响较多,往往不能客观地对教学过程进行评价,本文在对国内外双语教学评价方法进行系统研究的基础上,建立了双语教学评价指标体系,基于RBF神经网络构造评价模型,使用JSP技术实现了双语教学评价系统。  相似文献   

8.
针对目前地址匹配算法匹配速率低、空间开销大的不足,提出了一种基于哈希和双数组trie树的多层次地址匹配算法.利用中文地址的分类、分层及组合规则,改进了地址匹配词典的构建方式,减少了词典构建的时间和空间开销.通过哈希运算,将空间坐标存储在哈希表相应的位置上,加快了空间坐标的检索效率.同时,在地址匹配的过程中,采用双向扫描及哈希运算代替传统的数据库检索方式,提高了地址匹配速率.最后,通过实验对算法的有效性进行了验证.  相似文献   

9.
维汉机器翻译词典的结构设计与实现   总被引:1,自引:1,他引:0  
机器翻译词典的设计是机器翻译系统关键之一.机器翻译词典的质量和信息量直接限定机器翻译系统的应用领域和覆盏范围.本文介绍机器翻译词典词条收集方法且讨论维汉机器翻译词典的设计原则、构造方法及其数据结构.  相似文献   

10.
在基于实例的哈萨克语汉语机器翻译研究中,翻译质量的高低跟实例句子相似度计算方法有直接的关系.本文提出一种哈萨克语句子相似度计算方法,即采用基于词特征和基于向量特征相结合的相似度计算法,计算过程中使用了同义词替换.句子相似度计算中需要解决的关键问题是怎样快速匹配实例.为解决这个问题,所设计的快速查找模块能够快速从实例库中筛选出实例集合,进行相似度计算.实验结果表明:快速查找模块可以提高实例句子查找速度,同义词替换可以提高相似度准确性.  相似文献   

11.
研究了维吾尔文的书写特点.实现维文动态翻译技术的难点、根据维吾尔文的特征.创建了不等宽度不等长代码处理技术,屏幕取词.全屏翻译的关键技术来实现了维吾尔文动态翻译,井给出了实现其关键模块功能的程序流程图.  相似文献   

12.
格助词在日本语和维吾尔语中都存在,有效的利用两种语言的格助词进行日-维机器翻译,研究它们的对应关系,即:-个日语格助词对应多个维语格助词的多意型问题;本文对两种语言格助词的翻译提出适当的解决方法.  相似文献   

13.
旅游文本大数据以其方便、快捷和低门槛的特点为游客情感计算提供了极大便利,已经成为旅游大数据的主要来源之一。基于大数据理论和情感理论,以文本大数据为数据源,在全面梳理国内外情感计算相关成果的基础上,利用人工智能中的逻辑/算法编程方法、机器学习方法、深度学习方法对旅游文本大数据进行挖掘,探索最佳的基于文本大数据的游客情感计算方法。研究发现:(1)基于情感词典的游客情感计算模型,其核心是构建情感词典和设计情感计算规则,方法简单,容易实现,适用语料范围广。(2)机器学习,用统计学方法抽取文本中的特征项,具有非线性特征,可靠性较线性特征的情感词典方法高。(3)基于深度学习技术的游客情感计算,效果良好,准确率在85%以上。训练多领域的文本语料易于移植,实用性强,且泛化能力好,较适合大数据时代游客情感计算研究。  相似文献   

14.
旅游文本大数据以其方便、快捷和低门槛的特点为游客情感计算提供了极大便利,已经成为旅游大数据的主要来源之一。基于大数据理论和情感理论,以文本大数据为数据源,在全面梳理国内外情感计算相关成果的基础上,利用人工智能中的逻辑/算法编程方法、机器学习方法、深度学习方法对旅游文本大数据进行挖掘,探索最佳的基于文本大数据的游客情感计算方法。研究发现:(1)基于情感词典的游客情感计算模型,其核心是构建情感词典和设计情感计算规则,方法简单,容易实现,适用语料范围广。(2)机器学习,用统计学方法抽取文本中的特征项,具有非线性特征,可靠性较线性特征的情感词典方法高。(3)基于深度学习技术的游客情感计算,效果良好,准确率在85%以上。训练多领域的文本语料易于移植,实用性强,且泛化能力好,较适合大数据时代游客情感计算研究。  相似文献   

15.
本文叙述了北大方正维吾尔文电子文本代码转换成U n icode维吾尔文文本方法,给出了两种代码的转换对应关系表和程序代码.  相似文献   

16.
讨论了维汉英机器翻译系统中电子词典的设计思想、具体的实现方法、并提出了电子词典的创建以及查询算法等。  相似文献   

17.
本文研究了汉语教学软件在Android 开发平台下的开发与实现过程,系统主要由Android软件开发工具包和Eclipse集成开发环境进行开发,利用Android的API函数接口,通过自动选型规则实现了维汉英多种文字的正确显示及处理等问题,进而给用户带来更加方便的汉语学习环境。在存储及处理大量的相关图片和音频文件时,利用了Android集成的小型嵌入式轻量级数据库SQLite的开发接口。除此引用3G信息化时代中最受欢迎的语音合成技术(TTS)来实现此平台中声母韵母的标准发音,本研究为维吾尔族民众提供随时随地都能方便的学习汉语的环境,从而更好的满足新疆少数民族的应用需求。  相似文献   

18.
本文针对《辞海》收入的全部一万八千余汉字,面向结构识别方法,具体给出了一种手写印刷体汉字识别字库的构建思想、原理及其生成技术.内容包括汉字形体分析,吸引分叉网表示法,字库构成和自动生成程序,实际结果表明,字库无论是空间代价还是时间代价都十分理想,完全达到了实用要求.  相似文献   

19.
随着电力计量业务的不断扩展,迫切需要由业务信息、技术知识、行业标准及其内在联系所组成的电力计量知识图谱,为电网的决策和发展提供更为全面有效的支持。命名实体识别是构建知识图谱的基础。针对电力计量领域需要,结合中文分词技术特点,基于联合学习思想,提出了一种基于联合学习的中文电力计量命名实体识别技术。该技术联合CNN-BLSTM-CRF模型与整合词典知识的分词模型,使其共享实体类别和置信度;同时将2个模型的先后计算顺序改为并行计算,减少了识别误差累积。结果表明,在不需要人工构建特征的情况下,方法的正确率、召回率、F值等均显著优于以往方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号