杨攀
- 作品数:4 被引量:21H指数:3
- 供职机构:中国科学院合肥智能机械研究所更多>>
- 发文基金:中国科学院知识创新工程重要方向项目更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 汉蒙统计机器翻译中的形态学方法研究被引量:12
- 2009年
- 该文将形态学方法引入到汉蒙统计机器翻译的研究中,尝试解决译文词形选择及语序混乱问题。首先介绍语料库的准备:对原始汉蒙平行语料库进行词法分析及标注,得到两组基础语料库,再由基础语料库生成两组用于形态学实验的派生语料库。其次阐述统计模型的训练,包括语言模型、翻译模型及生成模型。同时讨论了解码的扩展问题。最后重点分析两组形态学方法实验:词素模型实验和factored方法实验。结果表明,相对于基线(baseline)实验,引入形态学方法后两组实验的BLEU评分均有所提高,译文词形选择及语序混乱问题得到了一定程度的解决。
- 杨攀张建李淼乌达巴拉雪艳
- 关键词:计算机应用中文信息处理形态学统计机器翻译语料库统计模型
- 基于短语统计翻译的汉维机器翻译系统被引量:6
- 2009年
- 描述了一种基于短语统计翻译的汉维机器翻译系统。首先使用汉维语料进行训练,得到语言模型和翻译模型;再利用训练好的模型对源语句进行解码,以得到最佳的翻译语句。解码的核心算法是柱搜索(beam search)算法。其中维文语料使用的是拉丁维文。实验结果表明,基于短语的统计机器翻译方法可以快速有效地构建一个汉维机器翻译平台。
- 杨攀李淼张建
- 关键词:语言模型翻译模型
- 汉蒙翻译模型中的依存语法与形态信息应用研究被引量:6
- 2009年
- 该文提出将源语言句法信息和目标语言形态信息引入汉蒙机器翻译的模型构造中,以降低译文的词形错误率等问题。在源语言端,利用汉语依存句法分析器获取依存树,将依存句法信息以标注形式记在每个词上;在目标语言端,分析并获取蒙古语形态信息;利用LOP思想将源语言依存句法信息和目标语言形态信息引入翻译模型构造中。实验表明,其BLEU评分比传统的短语统计翻译模型有明显提高。该方法通过词、短语、句法三层面信息的结合,实现了汉蒙两种语言语法结构的平衡,特别适合于源语言形态信息贫乏而目标语言形态信息丰富的统计机器翻译系统。
- 骆凯李淼乌达巴拉杨攀朱海
- 关键词:人工智能机器翻译依存语法统计机器翻译
- 汉蒙统计机器翻译中的形态学方法研究
- 本文以汉蒙统计机器翻译为研究对象。针对蒙古语形态变化丰富这一特点,将形态因子引入到汉蒙统计机器翻译中,通过因子化模型充分利用了蒙古语的形态信息;针对汉蒙平行语料库规模较小这一问题,将基于词典的词对齐方法产生的词对齐点融合...
- 杨攀
- 关键词:统计机器翻译语料库
- 文献传递