您的位置: 专家智库 > >

杨亲遥

作品数:1 被引量:24H指数:1
供职机构:华南理工大学计算机科学与工程学院更多>>
发文基金:广东省自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇信息抽取
  • 1篇可适应性
  • 1篇WEB信息
  • 1篇WEB信息抽...
  • 1篇DOM树
  • 1篇抽取

机构

  • 1篇华南理工大学

作者

  • 1篇张欢
  • 1篇李朝
  • 1篇叶苏南
  • 1篇杨亲遥
  • 1篇彭宏

传媒

  • 1篇计算机科学

年份

  • 1篇2009
1 条 记 录,以下是 1-1
排序方式:
基于DOM树的可适应性Web信息抽取被引量:24
2009年
Web信息抽取通常采用的是一种归纳学习方法,从给定的训练样本网页中学习到抽取规则,这种方法虽然能够准确地抽取出信息,但是当网站的模版发生改变后,必须重新获得抽取规则,因而这种抽取器的维护成本比较高,可适应性差。提出一种新的可适应性Web信息抽取方法,该方法首先通过聚类方法获取商品在网页中频繁出现的关键词组,然后利用网页的DOM树结构来确定包含这些关键词的信息块,从而实现Web信息的自动抽取。对大量商业网站进行信息抽取的实验表明,该算法不仅能有效抽取出商品信息,而且是一种与站点结构无关的可适应性信息抽取方法。
李朝彭宏叶苏南张欢杨亲遥
关键词:DOM树信息抽取可适应性
共1页<1>
聚类工具0