您的位置: 专家智库 > >

李军

作品数:1 被引量:0H指数:0
供职机构:重庆第二师范学院更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇信息提取
  • 1篇子树
  • 1篇网页
  • 1篇网页净化
  • 1篇基于统计

机构

  • 1篇重庆第二师范...

作者

  • 1篇黄军建
  • 1篇成平广
  • 1篇席海
  • 1篇胡飞
  • 1篇李军

传媒

  • 1篇科学技术与工...

年份

  • 1篇2013
1 条 记 录,以下是 1-1
排序方式:
基于统计的网页净化模板生成算法
2013年
同一个站点的大部分网页拥有几乎相同的DOM标签树,处理后的标签树作为一个模板,该站点的所有网页只保留这个模板中叶子节点包含的内容,由此可以实现这个站点的所有网页的净化。首先对一个站点内的一组样本网页提取内容块树,针对每个树统计每个标签节点包含的文本字数,同级节点只保留字数最多的一个,从而生成单边子树UST;然后把这组UST合并,同级节点中出现次数最多的即为重要内容节点,把这些节点串起来就构成重要单边子树PUST;最后比对每个父节点与子节点之间的字数,当比值超过一个阈值时则删除子节点以下的所有节点,从而生成该站点的重要单边子树SPUST。这个SPUST就是该站点的网页净化模板。
胡飞黄军建成平广席海李军
关键词:网页净化信息提取
共1页<1>
聚类工具0