俞小娟
- 作品数:5 被引量:13H指数:2
- 供职机构:华中师范大学计算机学院计算机科学系更多>>
- 发文基金:国家社会科学基金湖北省科技攻关计划教育部人文社会科学重点研究基地度重大研究项目更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于规则库和聚类分析的复句短语字段的自动识别研究被引量:9
- 2008年
- 复句层次结构与层次关系研究,是一项将中文信息处理由字、词处理阶段提升到句处理阶段的关键性难题.在研究复句层次划分和层次关系之前,首先要确定复句中分句的数量,需要排除其中非完整分句的字段(本文中称之为短语字段).结合语言学的相关理论,首先建立规则库,在此基础上,引入聚类分析法,对短语字段进行分类,最终使短语字段的自动识别率达到92.1%.
- 胡金柱俞小娟李琼周毕吉
- 关键词:规则库聚类分析
- 现代汉语复句中短语字段的自动识别初探被引量:1
- 2007年
- 为了建立一个面向中文信息处理的现代汉语复句深加工语料库,我们必须进行短语字段的自动识别工作。目的是把这些字段排除在分句层次分析的范围之外。这项工作建立在自动分词和词性标注的基础上,首先通过编写的程序把所有不含动词的字段暂时统一识别为短语字段。对于虽包含动词但前后有明显形式标志的字段则通过制定相应的规则来识别。还有一部分字段只包含一个动词,但前后却没有明显的形式标志,对此,需要利用字段中的结构助词"的"来帮助识别。
- 李琼胡金柱俞小娟
- 面向中文信息处理的汉语复句中书读短语的自动识别研究
- 语料库语言学在1990年代得到迅速的发展。语料库语言学的要旨是让计算机从大规模真实文本语料中直接学习并自动处理语言信息。然而,原始语料的利用价值有限,如果在原始语料中预先加入一定的语言学知识,计算机就会自动获得更多的信息...
- 俞小娟
- 关键词:中文信息处理汉语复句语料库语言学自动识别
- 文献传递
- 现代汉语复句中短语字段的自动识别初探被引量:7
- 2008年
- 为了建立一个面向中文信息处理的现代汉语复句深加工语料库,我们必须进行书逗短语字段的自动识别工作,目的是把这些字段排除在分句层次分析的范围之外。这项工作建立在自动分词和词性标注的基础上,主要分三个阶段进行,每个阶段都需要运用规则和统计相结合的方法。第一、二阶段的规则只包含句法因素,第三阶段的规则还需要运用一定的语义特征、搭配知识。
- 李琼胡金柱俞小娟
- 关键词:语义
- 用主成分分析法研究短语字段的判别因素被引量:2
- 2008年
- 对复句层次结构和层次关系进行分析和研究之前,首先要确定有标复句中分句的数量,即有标复句中的哪些字段是分句,哪些字段只是加了标点符号的句法成分(文中称之为短语字段)。结合语言学的相关理论,提取出识别短语字段的因素,并对这些因素进行主成分分析,从而得出进行识别的综合影响因素以及与原始的具体因素之间的关系。结果表明,前三个主成分所包含的信息量接近85%,已包含原有因素大部分的信息,在今后的研究中,这三个主成分将取代原来的多个变量,从而简化研究的复杂度。
- 俞小娟胡金柱李琼周毕吉
- 关键词:主成分分析相关系数