统计机器翻译中汉维短语对抽取的研究 |
| |
引用本文: | 任高举,吐尔根伊布拉音,艾山吾买尔.统计机器翻译中汉维短语对抽取的研究[J].新疆大学学报(理工版),2010(3):349-352. |
| |
作者姓名: | 任高举 吐尔根&#;伊布拉音 艾山&#;吾买尔 |
| |
作者单位: | 新疆大学信息科学与工程学院,新疆乌鲁木齐830046 |
| |
摘 要: | 双语短语对抽取是基于短语的统计机器翻译中短语翻译模型训练的关键步骤,但由于汉维平行语料库规模有限,数据稀疏问题严重.本文提出了一种改进的短语抽取算法,该算法首先考虑词对齐矩阵中一个汉语词对齐到多个维吾尔语词的情况(包括不连续),然后利用Och方法抽取短语对,最后考虑维吾尔语SOV语序结构特点,抽取双语短语.实验表明,该算法能够较准确地且尽可能多地抽取汉维短语对,从而提高翻译模型的质量.
|
关 键 词: | 统计机器翻译 短语抽取 汉维短语对 |
Research on Chinese-Uyghur Phrase Pairs Extraction in Statistical Machine Translation |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
|