国家自然科学基金(60303003)
- 作品数:3 被引量:35H指数:2
- 相关作者:常宝宝丁伟伟肖华云更多>>
- 相关机构:北京大学更多>>
- 发文基金:国家自然科学基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于最大间隔马尔可夫网模型的汉语分词方法
- 分词是汉语自然语言处理研究中非常重要的一个环节,在早先的研究中,最大熵模型和条件随机场(CRF)模型已经广泛运用到汉语自动分词的工作中。最大间隔马尔可夫网(Max Margin Markov Networks,简称M3N...
- 李月伦常宝宝
- 关键词:汉语分词
- 文献传递
- 服务于双语词典编纂的检索平台
- 2005年
- 基于语料库的词典编纂技术已经成为现代词典编纂的主流方法。词典的主要功能是检索。该文介绍一种服务于双语词典编纂的检索平台。平台从词典编纂的需求出发,实现了带运算符的检索、搭配统计、译词选择等功能,减轻了词典编纂人员的工作量。
- 肖华云常宝宝
- 关键词:词典编纂搭配
- 基于最大熵原则的汉语语义角色分类被引量:12
- 2008年
- 语义角色标注是近些年来兴起的自然语言处理的一个新的研究领域。与英语方面的研究相比,汉语方面的工作还不是很充分。该文在参考已有工作的基础上,基于最大熵原则,对汉语语义角色标注中的一个方面———语义角色分类进行了深入的研究。在提出了一些新的特征之后,该文还充分利用了语义角色之间的相关性,提取语义角色的上下文特征,从而提高标记的准确率;此外,通过对不同特征的单独研究,笔者发现了不同特征取得最优值时的窗口大小差别很大。发现这一现象后,笔者设计了一种基于贪心策略的选择算法,对不同的特征选择不同的窗口大小,使得标记结果进一步提高。在综合采用了以上的策略之后,笔者的汉语语义角色分类系统可以达到95.00%的准确率,比前人有较为显著的提升。从而证明了笔者的方法是有效的。
- 丁伟伟常宝宝
- 关键词:计算机应用中文信息处理最大熵上下文贪心策略
- 基于语义组块分析的汉语语义角色标注被引量:25
- 2009年
- 近些年来,中文语义角色标注得到了大家的关注,不过大多是传统的基于句法树的系统,即对句法树上的节点进行语义角色识别和分类。该文提出了一种与传统方法不同的处理策略,我们称之为基于语义组块分析的语义角色标注。在新的方法中,语义角色标注的流程不再是传统的"句法分析——语义角色识别——语义角色分类",而是一种简化的"语义组块识别——语义组块分类"流程。这一方法将汉语语义角色标注从一个节点的分类问题转化为序列标注问题,我们使用了条件随机域这一模型,取得了较好的结果。同时由于避开了句法分析这个阶段,使得语义角色标注摆脱了对句法分析的依赖,从而突破了汉语语法分析器的时间和性能限制。通过实验我们可以看出,新的方法可以取得较高的准确率,并且大大节省了分析的时间。通过对比,我们可以发现在自动切分和词性标注上的结果与在完全正确的切分和词性标注上的结果相比,还有较大差距。
- 丁伟伟常宝宝
- 关键词:中文信息处理语义角色标注条件随机域
- 基于最大熵原则的汉语语义角色分类
- 语义角色标注是近些年来兴起的自然语言处理的一个新的研究领域。本文在参考已有工作的基础上,基于最大熵原则,对汉语语义角色标注中的一个方面——语义角色分类进行了深入的研究。在提出了一些新的特征之后,本文还充分利用了语义角色之...
- 丁伟伟常宝宝
- 关键词:最大熵上下文贪心策略
- 中文词、词组对应英文翻译的自动识别
- 本文工作是在建设双语对齐语料库及其检索平台的背景下提出。本文基于汉英双语语料库,利用固定译词表,对中文译词做了x统计实验;通过对其结果的分析给出了汉英双语语料库检索平台内嵌的中文检索词对应译词的识别方法,在对35个词的测...
- 肖华云常宝宝俞士汶
- 关键词:双语语料库覆盖度词组
- 文献传递
- 一种基于N-Best结果组合优选的词语对齐方法
- 在这篇文章中,我们提出了一种从句对齐语料中抽取出词语对齐的新颖方法。我们比较主流的词语对齐方法,重点分析IBM模型,发现模型在挑选最佳对齐方面的缺陷。我们对每组对齐取NBest的结果,然后利用有监督的学习方法对NBest...
- 朱丹青常宝宝
- 关键词:词对齐有监督学习
- 文献传递
- 一种基于树核的汉语句法分析多重结果重排序技术
- 本文将基于概率上下文无关文法的汉语句法分析分为K-best基础模型和重排序两个阶段,主要研究为对多重结果的重排序技术。本文所介绍的重排序技术有两个特色:一是实现排序问题到分类问题的转化并通过改进的投票感知机算法实现重排序...
- 郑晓东陈亮常宝宝
- 关键词:汉语句法分析树核
- 文献传递