陈群秀
- 作品数:60 被引量:389H指数:12
- 供职机构:清华大学信息科学技术学院计算机科学与技术系更多>>
- 发文基金:国家高技术研究发展计划国家重点基础研究发展计划国家社会科学基金更多>>
- 相关领域:自动化与计算机技术语言文字文化科学更多>>
- 现代汉语语义资源用于短语歧义模式消歧研究被引量:11
- 2007年
- 现代汉语存在着许多歧义短语结构,仅依靠句中词性标记无法获得词与词之间正确的搭配关系。本文研究了大量包含歧义的短语实例,分析了计算机处理汉语结构时面临的定界歧义和结构关系歧义问题,在已有短语结构规则的基础上归纳出了七种结构歧义模式,提出了分析歧义模式的关键是四种基本搭配信息的判断,并实现了基于语义知识和搭配知识的消歧算法。对887处短语进行排歧的实验结果表明,处理短语结构的正确率由82.30%上升到87.18%。
- 王锦陈群秀
- 关键词:计算机应用中文信息处理搭配词典
- 现代汉语语义知识表示的研究
- 目前,世界各国学者都十分重视语言信息处理的知识资源的建设,知识包括词汇学知识、句法学知识、语义学知识、语用学知识乃至常识方面的知识,核心问题是语义学知识.在语义学知识中,词汇的语义知识是最基本最重要的语义知识.本文首先提...
- 陈群秀
- 关键词:语言信息处理语义学机器词典现代汉语
- 文献传递
- TREC2002介绍及清华大学实验研究
- 文本信息检索会议(TREC)是由美国国家标准技术局和美国国防高级研究计划局组织召开的一年一度的国际标准评测会议,在文本信息检索领域规模最大最具权威性并深有影响。本文主要介绍TREC2002中的三个主要项目:Web检索、新...
- 张敏马亮马少平陈群秀
- 关键词:文本信息检索WEB信息检索
- 文献传递
- 现代汉语述语形容词机器词典的研究与实现
- 现代汉语语义知识库是自然语言处理过程中汉语语义资源的重要工程之一。目前,已经完成了现代汉语语义知识库的三个组成部分:《现代汉语述语动词机器词典》、《现代汉语名词槽关系机器词典》和《现代汉语语义分类系统》,在此基础上本文描...
- 尹一瓴陈群秀
- 关键词:计算词典学
- 文献传递
- 基于连续段落相似度的主题划分算法被引量:12
- 2005年
- 主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。文中提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为92.4%,对单主题文章的主题划分准确率为99.1%。
- 傅间莲陈群秀
- 关键词:自动文摘向量空间模型主题划分
- 基于事件框架的信息抽取系统被引量:45
- 2006年
- 信息抽取技术能够提供高质量的检索服务。本文提出一种基于框架的信息抽取模式并建立统一的灾难性事件框架,利用框架的继承-归纳特性简化系统实现过程,概括事件信息,并提出按时间流顺序的线索性文件抽取的输出方式。本文使用这种方法建立了一个灾难性事件信息抽取系统。实验证明本文中的方法是有效的。
- 梁晗陈群秀吴平博
- 关键词:计算机应用中文信息处理信息抽取
- 基于规则和统计的中文自动文摘系统被引量:26
- 2006年
- 自动文摘是自然语言处理领域里一个重要课题,本文在传统方法基础上提出了一种中文自动文摘的方法。在篇章结构分析里,我们提出了基于连续段落相似度的主题划分算法,使生成的文摘更具内容全面性与结构平衡性。同时结合了若干规则对生成的文摘初稿进行可读性加工处理,使最终生成的文摘更具可读性。最后提出了一种新的文摘评价方法(F-new-m easure)对系统进行测试。系统测试表明该方法在不同文摘压缩率时,评价值均较为稳定。
- 傅间莲陈群秀
- 关键词:中文信息处理自动文摘向量空间模型主题划分可读性
- 日汉机器翻译系统用日语附属词词典的设计与实现
- 1997年
- 曹睿妮陈群秀
- 关键词:词典
- 现代汉语名词槽关系系统中槽类型的研究和设计
- 现代汉语名词槽关系系统不仅是现代汉语语义系统的一个重要组成部分,而且是自然语言理解中汉语语义资源的重要工程之一.本文首先论述了现代汉语名词槽关系系统研究的必要性和重要性,然后介绍名词槽关系主要表示信息槽类型、槽序的概念以...
- 陈群秀
- 关键词:语类
- 一种基于翻译记忆的汉日机器辅助翻译
- 基于翻译记忆这一机器翻译技术,本文对比了 Trie 树、哈希表、后缀数组这三种比较常见的索引方式,并提出了一种基于哈希表和后缀数组的双重策略的翻译算法,并应用于汉日机器翻译系统中,同时提出了一种利用此技术进行机器辅助翻译...
- 杜伟陈群秀
- 关键词:翻译记忆后缀数组