俞鸿魁
- 作品数:10 被引量:486H指数:5
- 供职机构:北京信息科技大学中文信息处理研究中心更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金北京市教育委员会科技发展计划更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 基于层叠隐马尔可夫模型的中文命名实体识别被引量:185
- 2006年
- 提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。在对大规模真实语料库的封闭测试中,人名、地名和机构识别的F-1值分别达到92.55%、94.53%、86.51%。采用该方法的系统ICTCLAS在2003年5月SIGHAN举办的第一届汉语分词大赛中名列前茅。
- 俞鸿魁张华平刘群吕学强施水才
- 关键词:命名实体识别角色标注ICTCLAS
- 基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术
- 该文提出了一种基于层次隐马尔可夫模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和命名实体识别集成到一个完整的理论框架中.在分词方面,采取的是基于类的隐马尔可夫模型,在这层隐马尔可夫模型中,命名实体和词典中收录...
- 俞鸿魁
- 关键词:汉语词法分析分词词性标注命名实体识别ICTCLAS
- 文献传递
- 基于层叠隐马尔可夫模型的中文命名实体识别
- 本文提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上,采用底层隐马尔可夫模型识别出普通无嵌套的人...
- 俞鸿魁张华平刘群吕学强施水才
- 关键词:命名实体识别角色标注ICTCLAS
- 文献传递
- 基于双语词典的汉英词语对齐算法研究被引量:11
- 2005年
- 研究利用多部人读双语词典扩充双语词典的规模来改善词语对齐质量。介绍了一个在Ker算法基础上用双语词典进行汉英词语对齐的算法。提出了对齐窗口的概念,通过在对齐过程中设置对齐窗口,可以找到多对多的词语对应。
- 邓丹刘群俞鸿魁
- 关键词:词语对齐
- 基于大规模语料的新词语识别方法
- 根据新词语的不同特征,提出了一整套自动检测新词语的方法,通过大规模地统计分析,分别建立字,词,N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出语料中的新词语.根据此方案...
- 施水才俞鸿魁吕学强李渝勤
- 关键词:新词语流行语语料库
- 文献传递
- 基于层叠隐马模型的汉语词法分析被引量:288
- 2004年
- 提出了一种基于层叠隐马模型的汉语词法分析方法 ,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中 在分词方面 ,采取的是基于类的隐马模型 ,在这层隐马模型中 ,未登录词和词典中收录的普通词一样处理 未登录词识别引入了角色HMM :Viterbi算法标注出全局最优的角色序列 ,然后在角色序列的基础上 ,识别出未登录词 ,并计算出真实的可信度 在切分排歧方面 ,提出了一种基于N 最短路径的策略 ,即 :在早期阶段召回N个最佳结果作为候选集 ,目的是覆盖尽可能多的歧义字段 ,最终的结果会在未登录词识别和词性标注之后 ,从N个最有潜力的候选结果中选优得到 不同层面的实验表明 ,层叠隐马模型的各个层面对汉语词法分析都发挥了积极的作用 实现了基于层叠隐马模型的汉语词法分析系统ICTCLAS ,该系统在 2 0 0 2年的“九七三”专家组评测中获得第 1名 ,在 2 0 0 3年汉语特别兴趣研究组 (ACLSpecialInterestGrouponChineseLanguageProcessing ,SIGHAN)组织的第 1届国际汉语分词大赛中综合得分获得两项第 1名、一项第 2名 这表明 :ICTCLAS是目前最好的汉语词法分析系统之一 。
- 刘群张华平俞鸿魁程学旗
- 关键词:汉语词法分析分词词性标注未登录词识别ICTCLAS
- 基于层叠隐马尔可夫模型的中文命名实体识别
- 本文提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上,采用底层隐马尔可夫模型识别出普通无嵌套的人...
- 俞鸿魁张华平刘群吕学强施水才
- 关键词:角色标注
- 文献传递
- 基于新闻语料的流行语量化分析
- 2007年
- 通过对1947~2002年,共计56年的《人民日报》新闻语料进行统计分析,按照流行语的时间属性,将流行语分为新流行语、持续流行语、历史流行语以度周期流行语,分析了新词语、流行语与高频有意义串的异同,列举《人民日报》中的实例,定性定量地分析了流行语的特点。
- 施水才吕学强俞鸿魁王霞李渝勤
- 关键词:流行语新词
- 基于角色标注的中文机构名识别
- 中文机构名自动识别是命名实体识别的重点和难点,目前各种解决方案的实际效果还难以满足人们的实际需求。本文提出了一种基于角色标注的中文机构名自动识别方法,其基本思想是:根据在机构名识别中的作用,采取Viterbi算法对切分结...
- 俞鸿魁张华平刘群
- 关键词:中文机构名识别未登录词识别角色标注VITERBI算法
- 文献传递
- 基于大规模语料的新词语识别方法被引量:6
- 2006年
- 根据新词语的不同特征,提出了一整套自动检测新词语的方法,通过大规模地统计分析,分别建立字,词,N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出语料中的新词语.根据此方案实现的系统,可以抽取不限长度不限领域的新词语.
- 施水才俞鸿魁吕学强李渝勤
- 关键词:新词语流行语语料库