教育部人文社会科学研究基金(09YJC740032)
- 作品数:3 被引量:1H指数:1
- 相关作者:李琼李志更多>>
- 相关机构:华中师范大学更多>>
- 发文基金:教育部人文社会科学研究基金更多>>
- 相关领域:语言文字更多>>
- 基于词性信息自动识别和标注非分句
- 2011年
- 在完成自动分词和词性标注工作的基础上,进行分句层次和关系的自动划分和标注,以期建设一个面向中文信息处理的大规模复句"精加工"语料库。可以利用词性信息制定一系列规则去实现部分非分句的自动识别和标注,同时建设一个短语库,把短语语言片段收录其中。
- 李琼李志
- 关键词:词性词性标注
- 利用标点符号自动识别分句被引量:1
- 2011年
- 为了建设一个面向中文信息处理的大规模复句"精加工"语料库,首先要完成自动分词和词性标注工作,在此基础上进行分句层次和关系的自动划分和标注。由于标点符号是最直观而明晰的断句标记,我们编制的初始程序让计算机一"碰到"标点符号就把它前后的语言片段都判定为分句。这就为今后基于句法和语义知识的非分句识别奠定了良好的基础。
- 李琼
- 关键词:标点符号自动识别分句非分句
- 利用“句法规则”自动识别非分句
- 2010年
- 在计算机进行现代汉语复句书读前后非分句语言片段的自动识别过程中,我们发现并总结出一些可形式化后供其执行的句法规则。这些规则的效用如何,我们还没来得及进行试验,本文也暂时未做分析。我们的设想是:待计算机工作人员将它们形式化为可供计算机理解和执行的语言后,在训练集内进行小规模的试验,再进而把试验范围扩大到整个语料库,从中不断改进和完善规则。
- 李琼
- 关键词:句法规则自动识别形式化汉语复句分句