您的位置: 专家智库 > >

黄贵鹏

作品数:2 被引量:14H指数:2
供职机构:中山大学资讯管理学院资讯管理系更多>>
发文基金:教育部人文社会科学研究基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 2篇信息抽取
  • 2篇WEB信息
  • 2篇WEB信息抽...
  • 2篇抽取
  • 1篇语义标注
  • 1篇自动抽取
  • 1篇相似度
  • 1篇结构相似度
  • 1篇聚类
  • 1篇包装器
  • 1篇WEB聚类
  • 1篇GATE

机构

  • 2篇中山大学

作者

  • 2篇黄贵鹏
  • 2篇聂卉

传媒

  • 1篇图书情报工作
  • 1篇现代图书情报...

年份

  • 2篇2010
2 条 记 录,以下是 1-2
排序方式:
基于GATE语义标注的Web信息的自动抽取被引量:4
2010年
重点研究基于语义标注样本的Web信息自动抽取的实现方法。借助自然语言处理框架GATE,首先引入领域本体对样本网页内容进行语义标注,精确定位出待抽取的语义项,并据此将样本网页解析为S-DOM树。从S-DOM树中抽取出语义项的特征描述,形成样本实例并采用机器学习算法归纳抽取规则,自动生成包装器。抽取过程中,通过比较网页结构的相似度,系统能够感知网页的变化,主动学习并扩展规则库。试验结果表明,由于精确定位保障了学习样本的质量,小样本学习生成的包装器能够达到较为理想的查全率和查准率。
聂卉黄贵鹏
关键词:WEB信息抽取语义标注包装器
树编辑距离在Web信息抽取中的应用与实现被引量:10
2010年
引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。
聂卉黄贵鹏
关键词:WEB信息抽取结构相似度WEB聚类
共1页<1>
聚类工具0