刘绍明
- 作品数:7 被引量:49H指数:4
- 供职机构:施乐公司更多>>
- 发文基金:国家自然科学基金教育部“新世纪优秀人才支持计划”国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于序列相交的短语译文获取被引量:4
- 2009年
- 短语译文获取技术是基于实例的机器翻译(EBMT)中的核心技术之一,其准确率直接影响到EBMT系统的性能。该文提出了一种基于序列相交的短语译文获取方法,该方法将句子视为词的序列,利用对中日句对齐语料库中包含待译短语的所有源语句子对应的目标语句子进行序列相交的方式,在不需要词对齐、句法分析及词典等资源的情况下,通过充分挖掘句对齐双语语料库的信息,获得高质量的短语译文。实验表明,该方法获得的短语译文准确率超过80%。
- 王辰宋国龙吴宏林张俐刘绍明
- 关键词:计算机应用中文信息处理EBMT
- 运用改进的分词方法进行外国译名识别的研究被引量:4
- 2005年
- 该文首先介绍了基于词典的分词算法的语言模型和一种基于词典分词算法:最大词频分词法。分析了基于词典的分词算法的语言模型,指出其无法处理未登录词的原因。针对此原因,提出了引入动态词典的方法,将最大词频分词算法和局部频率法相结合以解决未登录词中译名识别的问题。最后,给出了一个系统实现。
- 方华王振华陆汝占刘绍明
- 关键词:分词译名
- 基于加权二部图的汉日词对齐被引量:9
- 2007年
- 高效的自动词对齐技术是词对齐语料库建设的关键所在。当前很多词对齐方法存在以下不足:未登录词问题、灵活翻译问题和全局最优匹配问题。针对以上不足,该文提出加权二部图最大匹配词对齐模型,利用二部图为双语句对建模,利用词形、语义、词性和共现等信息计算单词间的相似度,利用加权二部图最大匹配获得最终对齐结果。在汉日词语对齐上的实验表明,该方法在一定程度上解决了以上三点不足,F-Score为80%,优于GIZA++的72%。
- 吴宏林刘绍明于戈
- 关键词:计算机应用中文信息处理词对齐二部图
- 结合决策树方法的中文姓名识别被引量:26
- 2004年
- 中文姓名识别是自然语言处理中专名识别的一个重要的子问题 ,本文将中文姓名的识别过程细分为三个步骤 :抽取阶段、分类阶段和消歧阶段。利用中文姓和名的用字概率信息 ,在文本中抽取潜在的中文姓名 ,以及其相关的上下文词法、语法和语义特征 ,并将潜在姓名是否是真实姓名的判别看作是两分类问题 ,并利用决策树算法来实现初步判别 ,最后消除初步判别结果中的歧义现象。实验结果表明 ,该方法的召回率和准确率都可达到 90 %以上。
- 王振华孔祥龙陆汝占刘绍明
- 关键词:人工智能自然语言处理中文姓名识别决策树自然语言处理
- 一个实现多种切分标注算法的系统被引量:3
- 2004年
- 介绍了一个对汉语语料进行切分标注的系统——SEGPOS。该系统采用模块化设计,具有灵活的算法实现、替换机制,并能动态扩展各类数据资源。为开发切分、标注算法,进行多种算法的横向比较研究,提供了一个良好的平台。给出了在SEGPOS上实现的多种切分、标注算法的测试结果和分析。
- 方华陆汝占刘绍明
- 关键词:切分自然语言理解
- 基于二部图最大匹配的汉日词对齐
- 该文提出了基于二部图的词对齐模型:利用二部图为双语句对建模,利用词形、语义、词性和共现等信息计算单词间的相似度,利用加权二部图最大匹配获得最终对齐结果。实验表明,该方法在一定程度上解决了当前很多词对齐方法存在的未登录词问...
- 吴宏林刘绍明
- 关键词:词对齐二部图
- 文献传递
- 西方姓名译名的自动识别研究被引量:4
- 2004年
- 西方姓名译名的自动识别为汉语自动分词不可或缺的组成部分。该文以西方姓名译名用字信息为基础,充分利用标准词表来限制西方姓名译名的过度生长能力,并使用首尾逼近和局部频率等方法来进一步改善识别效果,并且针对西方姓名译名的特点进行了有针对性的处理。对真实语料进行测试,正确率达到96.87%,召回率达到97.20%。
- 孔祥龙卢鹏陆汝占刘绍明
- 关键词:专名识别局部频率