您的位置: 专家智库 > >

詹恒飞

作品数:3 被引量:23H指数:1
供职机构:国防科学技术大学计算机学院更多>>
发文基金:广东省科技计划工业攻关项目湖南省自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇期刊文章
  • 1篇学位论文

领域

  • 3篇自动化与计算...

主题

  • 2篇爬虫
  • 2篇文本提取
  • 1篇搜索
  • 1篇图片
  • 1篇图片搜索
  • 1篇图像
  • 1篇网络
  • 1篇网络爬虫
  • 1篇聚焦爬虫
  • 1篇互联
  • 1篇互联网
  • 1篇分布式
  • 1篇NUTCH
  • 1篇HADOOP
  • 1篇LUCENE

机构

  • 3篇国防科学技术...

作者

  • 3篇詹恒飞
  • 2篇杨岳湘
  • 2篇方宏

传媒

  • 1篇计算机工程与...
  • 1篇计算机科学与...

年份

  • 2篇2011
  • 1篇2010
3 条 记 录,以下是 1-3
排序方式:
文本提取和相似反馈的互联网图像检索研究被引量:1
2011年
使用基于文本的互联网图像检索技术是互联网图像检索最实用的方式,也对其他方式的互联网图像检索有重要辅助作用,但如何利用周边文本来对图像进行准确描述一直是一个难题。利用TFIDF为基础提出了一个基于句法和文本重要性分类的图像关键词权重计算方法,并尝试通过图像的相似性因素作为反馈进一步优化搜索结果,为用户返回最贴切的搜索结果。
詹恒飞杨岳湘方宏
关键词:图像文本提取
分布式图片搜索引擎设计与实现
随着网络规模的飞速扩展和成像设备的普及,互联网上的图片资源增长速度惊人,而且内容丰富,蕴含着巨大的信息量。为了有效地提取并利用这些信息,本文通过对现有的图片搜索技术进行分析,选用了准确率较高的基于文本的图片搜索技术和Ha...
詹恒飞
关键词:图片搜索聚焦爬虫文本提取HADOOPLUCENE
Nutch分布式网络爬虫研究与优化被引量:22
2011年
Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品。作为优秀的搜索引擎,其重要的前提是如何尽可能多地抓取到网页数据来建立索引。介绍了Nutch基于Hadoop下的分布式网络爬虫工作机制,指出其不足之处,并提出了改进方案,从而使网络爬虫能够更加高效地利用网络资源来抓取网络数据。经过实验测试,证明了此方案比原方案更加高效。
詹恒飞杨岳湘方宏
关键词:网络爬虫
共1页<1>
聚类工具0