您的位置: 专家智库 > >

严磊

作品数:2 被引量:11H指数:1
供职机构:徐州工程学院信电工程学院更多>>
发文基金:徐州市科技计划项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 2篇引擎
  • 2篇搜索
  • 2篇搜索引擎
  • 2篇索引
  • 2篇爬虫
  • 2篇网络
  • 2篇网络爬虫
  • 1篇搜索策略
  • 1篇去重
  • 1篇主题爬虫
  • 1篇主题网络
  • 1篇主题网络爬虫
  • 1篇链表
  • 1篇哈希
  • 1篇哈希链
  • 1篇哈希链表
  • 1篇MD5
  • 1篇垂直搜索
  • 1篇垂直搜索引擎

机构

  • 2篇徐州工程学院

作者

  • 2篇郑涛
  • 2篇严磊
  • 2篇马勇男
  • 2篇丁宾

传媒

  • 1篇计算机应用与...
  • 1篇福建电脑

年份

  • 1篇2015
  • 1篇2013
2 条 记 录,以下是 1-2
排序方式:
垂直搜索引擎之主题网络爬虫被引量:1
2013年
21世纪的今天,网络信息量呈几何倍数的增长。传统的通用搜索引擎已经不能很好的满足我们对特定信息的需求。所以,针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务的垂直搜索引擎应运而生。而主题网络爬虫则是为垂直搜索引擎提供数据的自动化程序。本文主要研究了主题爬虫的各种搜索策略,指出了其中的劣以及最后对将来的发展做出了一个展望。
严磊马勇男丁宾郑涛
关键词:垂直搜索主题爬虫搜索策略
基于MD5去重树的网络爬虫的设计与优化被引量:10
2015年
随着信息化社会的不断发展,互联网上的数据越来越多,随之也产生了各种各样的搜索引擎,网络爬虫正是为搜索引擎提供数据基础的。由于大多数普通的网络爬虫在数据量巨大时都会因为DNS解析以及url去重而消耗大量的时间,为了更好地改进爬虫的效率,让爬虫在大数据处理时依然拥有良好的性能,使用哈希链表缓存DNS并将DNS解析的效率相对于普通不做DNS优化的爬虫提高了2.5~3倍。再将MD5加密算法以及树相结合设计出一种基于MD5的ud去重树,理论上使得url去重的空间复杂度相对于普通哈希表缩小60倍,而让其查重的时间复杂度接近于O(1)。最终通过实验证明了该设计的数据结构较为良好。
严磊丁宾姚志敏马勇男郑涛
关键词:搜索引擎网络爬虫哈希链表
共1页<1>
聚类工具0