您的位置: 专家智库 > >

国家高技术研究发展计划(2008AA01A307)

作品数:3 被引量:23H指数:1
相关作者:王劲林白鹤赵志强汤迪斌更多>>
相关机构:中国科学院中国科学院研究生院更多>>
发文基金:国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇中文期刊文章

领域

  • 3篇自动化与计算...

主题

  • 1篇信息提取
  • 1篇页面
  • 1篇支持向量
  • 1篇支持向量机
  • 1篇爬虫
  • 1篇主题
  • 1篇网络
  • 1篇网络爬虫
  • 1篇向量
  • 1篇向量机
  • 1篇旅游
  • 1篇旅游领域
  • 1篇多主题
  • 1篇分布式
  • 1篇WEB
  • 1篇WEB信息
  • 1篇WEB信息提...
  • 1篇WEB页
  • 1篇WEB页面
  • 1篇DEEP

机构

  • 3篇中国科学院
  • 3篇中国科学院研...

作者

  • 3篇白鹤
  • 3篇王劲林
  • 2篇赵志强
  • 1篇汤迪斌

传媒

  • 2篇微计算机信息
  • 1篇计算机工程

年份

  • 2篇2010
  • 1篇2009
3 条 记 录,以下是 1-3
排序方式:
在线旅游业务中Web页面主体块提取方法研究
2010年
Web信息提取是在线旅游业务的重要技术。页面的主体语义块集中了最主要的信息量,它的正确提取是Web信息提取的基础。本文在对现有页面分割方案总结的基础上,提出了结合机器学习方法的Web页面主体语义块节点识别算法,并基于启发式规则对正结果集进行后续的校验,以定位最佳的主体语义块节点。通过实验,本文提出的方案达到了比较理想的准确率。
白鹤赵志强王劲林
关键词:WEB信息提取支持向量机
面向旅游领域的Deep Web接口查询研究被引量:1
2010年
Deep Web蕴涵丰富的分类信息,是融合型在线旅游业务良好的数据源。本文对Deep Web接口模式进行分析,提出了接口集成方案的流程和领域实例库的建模方法,并就"酒店查询"业务进行了对方案的评估。测试结果显示,在对接口页面一定积累的基础上,可以达到较高的模式匹配准确率,从而保证了Deep Web接口的正确的自动查询。
白鹤赵志强王劲林
关键词:DEEPWEB
分布式多主题网络爬虫系统的研究与实现被引量:22
2009年
提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。
白鹤汤迪斌王劲林
关键词:网络爬虫多主题分布式
共1页<1>
聚类工具0