您的位置: 专家智库 > >

朱道辉

作品数:3 被引量:4H指数:2
供职机构:南华大学计算机科学与技术学院更多>>
发文基金:湖南省教育厅科研基金湖南省自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇期刊文章
  • 1篇学位论文

领域

  • 3篇自动化与计算...

主题

  • 3篇信息抽取
  • 3篇抽取
  • 2篇条件随机域
  • 2篇WEB信息
  • 2篇WEB信息抽...
  • 1篇隐马尔可夫模...
  • 1篇最大熵
  • 1篇文本
  • 1篇文本信息
  • 1篇文本信息抽取
  • 1篇马尔可夫
  • 1篇马尔可夫模型
  • 1篇可扩展
  • 1篇可扩展性
  • 1篇扩展性

机构

  • 3篇南华大学
  • 1篇广西师范大学

作者

  • 3篇朱道辉
  • 2篇肖基毅
  • 1篇邹腊梅
  • 1篇程阳

传媒

  • 1篇计算机应用与...
  • 1篇郑州大学学报...

年份

  • 1篇2011
  • 1篇2010
  • 1篇2008
3 条 记 录,以下是 1-3
排序方式:
基于混合条件模型的Web信息抽取被引量:2
2008年
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数,提出了一种最大熵和最大熵马尔可夫模型相结合的条件模型.该方法对输入的Web页面进行解析并构建HTML树,通过计算HTML子树结点的熵定位数据域,允许观察值表示任意重叠特征(像词、大写、HTML标记、语义)和定义状态序列给予观察序列的条件概率实现了Web信息抽取.实验结果表明,新的方法在精确度和召回率指标上比传统隐马尔可夫模型和最大熵马尔可夫模型具有更好的性能.
肖基毅朱道辉邹腊梅
关键词:WEB信息抽取最大熵隐马尔可夫模型
基于长距离依赖条件随机域的文本信息抽取被引量:2
2011年
信息抽取中,同一token在文本中可能出现多次,且token多次出现的位置通常相隔很远,传统线性链CRF模型由于Markov假设不能表达长距离依赖关系于是将多次出现的同一token分开标注,丧失了全局信息。提出了长距离依赖条件随机域模型,该模型能结合多次出现的同一token各处的特征,对其进行联合标注。由于长距离依赖使得精确的标注算法不可计算,采用了TRP估计算法。实验表明该模型抽取性能优于线性链CRF模型,尤其是speaker域上的召回率有了很大的提高。
朱道辉肖基毅程阳吴诗祥
关键词:条件随机域文本
基于条件随机域的Web信息抽取研究
随着互联网资源的迅速增长,仅仅依靠浏览器以及基于关键字检索查询的搜索引擎,已远不能满足互联网用户的信息需求,Web信息抽取应运而生。本文以条件随机域模型为主要研究内容,研究了结构新颖的条件随机域模型,选择了一种适合Web...
朱道辉
关键词:条件随机域WEB信息抽取可扩展性
共1页<1>
聚类工具0