排序方式: 共有2条查询结果,搜索用时 15 毫秒
1
1.
本文主要研究基于网络的可比较语料库的构建以及其在跨语言信息检索(CLIR)中的应用。首先从新闻网站获取新闻文本,用Lucene进行对齐,构建可比较语料库;其次,利用上下文信息从对齐的文本中抽取翻译知识;最后,用获得的翻译知识在TDT4语料上进行CLIR性能实验。实验表明,所抽取的翻译知识可以提高CLIR的性能,取得了0.272 8的MAP值,相对于基于本地词典的方法提高了35.44个百分点。 相似文献
2.
分别通过搜索引擎和本地的双语语料库挖掘OOV译文。首先,提出一种利用词汇重叠特征、词对齐特征和位置特征建立最大熵分类器的方法,借以自动从网页信息中抽取和构建双语平行语料库。其次,提出一种结合互信息的频率变化方法生成多词单元,并采用频度.距离模型和音译模型进行正确译文的选择。对这两种挖掘方法的性能进行对比,实验表明基于网络的Top10的包含率达到94.6%,而基于平行语料库的Top10的包含率为37.5%。 相似文献
1