方芳
- 作品数:8 被引量:16H指数:3
- 供职机构:南京师范大学文学院更多>>
- 相关领域:自动化与计算机技术语言文字文化科学更多>>
- 中文单字国名简称的自动识别被引量:3
- 2006年
- 单字地名简称识别是中文专名识别的重要组成部分,其中单字国名简称又占到了78.43%。但就现有的词性标注系统来看,还不能很好地对其进行识别。文章提出了一个基于规则的识别方法,以分词文本为底本,通过两次扫描,第一次扫描建立基于语篇的临时国名词表,第二次扫描利用上下文特征词等评分机制,从分词碎片中召回单字国名简称。在封闭测试和开放测试中,都取得了较好的实验结果,以人工分词文本为输入底本,调和平均值分别达到了96.33%和94.96%。
- 李斌方芳
- 关键词:评分机制
- 带后缀三字词的自动识别被引量:4
- 2006年
- 带后缀的三字词约占三字词总数的17.5%。笔者通过对120万字语料的统计和内省共获得71种能构成三字词的后缀,并分析了这些三字词的组合规律及前缀等上下文特征。运用这些知识,对65万字语料中带后缀的三字词进行识别,精确率和召回率由原来的85.2%和86.6%分别提高到86.6%和99.7%。
- 冯敏萱方芳陈小荷
- 关键词:后缀三字词中文信息处理自动识别
- 阿拉伯数字串到汉字数字串的自动转换
- 2005年
- 汉字的实数表达方式及规则,在汉语教学和机器翻译等领域中,都是较为重要的内容。本文详细分析了汉字实数的表达规则,并给出其结构表达式。在此基础上,使用C语言编写程序,把文本中实数范围内的阿拉伯数字串转换为相应的汉字数字串。
- 李斌方芳
- 基于语料库的高频最大交集型歧义字段考察被引量:7
- 2006年
- 交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上也与词典规模基本成正比。然后,在4亿字人民日报语料中采集出高频MOAS14906条,并随机抽取了1354270条带有上下文信息的实例进行人工判定。数据分析表明,约70%的真歧义MOAS存在着强势切分现象,并给出了相应的消歧策略。
- 李斌陈小荷方芳徐艳华
- 关键词:计算机应用中文信息处理全切分
- 含词尾的三字新词识别
- 新词识别一直是中文信息处理所关心的话题。本文针对三字新词的构造特点,并以训练语料为例,着重分析了含词尾的三字新词在自动识别时的重点和难点,从而进一步提出我们的解决方案,介绍了实现的过程及算法。最后,通过分析测试语料的识别...
- 方芳冯敏萱
- 关键词:词尾自动识别
- 文献传递
- 高频最大交集型歧义字段问题研究
- 交集型歧义是中文分词的一大难题,建立大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义.本文采用全切分方法,在4亿字人民日报语料上采集严格定义的高频MOAS14906条,随机抽取...
- 李斌陈小荷方芳徐艳华
- 关键词:全切分
- 文献传递
- 基于语料库的量名短语识别初探被引量:2
- 2006年
- 本文在语料库的基础上,通过考察、分析和统计人工分词和词性标注语料,采用语言学成果和计算机技术,对量名短语在语料库中的自动识别工作做了初步探讨。实验结果证明,利用匹配搭配词典和参考通过训练得出的搭配概率的方法,能够较好地在分词及词性标注文本上自动识别量名短语。
- 方芳
- 关键词:自动识别搭配词典
- 高频最大交集型歧义字段问题研究
- 交集型歧义是中文分词的一大难题,建立大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文采用全切分方法,在4亿字人民日报语料上采集严格定义的高频MOAS14906条,随机抽取...
- 李斌陈小荷方芳徐艳华
- 关键词:全切分
- 文献传递