您的位置: 专家智库 > >

秦文

作品数:1 被引量:48H指数:1
供职机构:清华大学信息科学技术学院计算机科学与技术系更多>>
发文基金:国家自然科学基金国家重点基础研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇登录
  • 1篇语言处理
  • 1篇数据挖掘
  • 1篇自然语言
  • 1篇自然语言处理
  • 1篇未登录词
  • 1篇未登录词识别
  • 1篇决策树
  • 1篇汉语
  • 1篇C4.5算法

机构

  • 1篇清华大学

作者

  • 1篇苑春法
  • 1篇秦文

传媒

  • 1篇中文信息学报

年份

  • 1篇2004
1 条 记 录,以下是 1-1
排序方式:
基于决策树的汉语未登录词识别被引量:48
2004年
未登录词识别是汉语分词处理中的一个难点。在大规模中文文本的自动分词处理中 ,未登录词是造成分词错识误的一个重要原因。本文首先把未登录词识别问题看成一种分类问题。即分词程序处理后产生的分词碎片分为‘合’(合成未登录词 )和‘分’(分为两单字词 )两类。然后用决策树的方法来解决这个分类的问题。从语料库及现代汉语语素数据库中共统计出六类知识 :前字前位成词概率、后字后位成词概率、前字自由度、后字自由度、互信息、单字词共现概率。用这些知识作为属性构建了训练集。最后用C4 5算法生成了决策树。在分词程序已经识别出一定数量的未登录词[6 ] 而仍有分词碎片情况下使用该方法 ,开放测试的召回率 ;6 9 4 2 % ,正确率 :4 0 4 1%。实验结果表明 ,基于决策树的未登录词识别是一种值得继续探讨的方法。
秦文苑春法
关键词:自然语言处理未登录词识别数据挖掘决策树C4.5算法
共1页<1>
聚类工具0