国家高技术研究发展计划(2006AA01Z196)
- 作品数:7 被引量:30H指数:2
- 相关作者:袁华董守斌李锦锋许勇李静静更多>>
- 相关机构:华南理工大学北京大学更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 基于主动哈希和多级缓存的域名解析策略被引量:1
- 2009年
- 互联网信息的快速增长,给搜索引擎的信息采集系统带来更大的挑战。将优化的主动哈希策略和多级缓存策略应用到分布式信息采集系统的域名解析过程中,使得无需为DN S服务器进行额外设置就能极大提高域名解析的性能,在一定程度上提高了分布式信息采集系统的性能。
- 吴翠雁黄建波李浩袁华
- 关键词:域名解析信息采集系统
- 一种基于关键维的图像索引方法被引量:1
- 2009年
- 基于内容的图像检索(CB IR)技术中,表示图像内容的特征向量通常是高维向量,且待检索图像量相当大,所以索引问题一直是CB IR的一个研究难点和热点。提出一种基于关键维的图像索引方法,首先提取图像向量中的关键维,再在每一维上创建关键维的升序链表,最后,基于关键维的升序链表进行检索。实验结果表明,该种方法可以带来检索效率的提高,且与图像库的大小无关。
- 蔡捷飞袁华
- 关键词:图像索引高维
- 基于内容的广告垃圾图像过滤方法的研究
- 垃圾制造者们为了避免垃圾过滤器的过滤,采用了很多变通的方法来制造垃圾,其中一种新型的垃圾邮件就是把文字转换为图像,通过图像来达到传递垃圾信息的目的,这种图像垃圾还存在若干变种,使之前的一些文本垃圾过滤器变得无能为力。本文...
- 丁丹袁华张凌
- 关键词:颜色聚类K-MEANS
- 文献传递
- 基于LBP和小波纹理特征的室内室外场景分类算法被引量:16
- 2010年
- 室内室外场景识别是图像处理的基本问题之一。对此问题提出了一种不需要图像分割和目标识别的方法。首先,利用小波变换对原图像进行五层小波分解,然后用旋转不变的LBP(local binary pattern)算法对第二层至第五层的LL子图提取纹理特征,再计算第二层和第一层LH,HL,HH子图的能量均值和方差,最后连接这两个过程形成的低维特征向量进行室内室外图像场景分类。实验结果表明此算法分类效果比较好,且识别室内室外场景并不需要目标形状等局部详细信息,只需要图像模糊化的全局纹理信息。
- 李锦锋许勇
- 关键词:LBP小波变换纹理特征
- 基于XPath的广告数据提取研究被引量:1
- 2008年
- 针对广告抽取系统的实际需求,该文提出了利用XPath规则从包含多个广告的页面中抽取广告记录数据的方法.该文主要阐述了广告抽取系统核心模块的实现机制和系统架构.实验结果表明,该方法能够准确定位页面广告数据块,并且能较好提取块内广告记录信息,具有一定的实用价值.
- 何章鸿董守斌
- 关键词:信息抽取XPATH包装器
- 基于网页主题重要性的专题搜索策略研究被引量:1
- 2008年
- 网页之间的链接结构为评价网页的主题重要性提供了丰富的信息,但传统的基于链接结构评价的主题排序算法,虽然提出了用向量来表示网页在不同主题中的重要程度,但它们在计算过程中没有充分考虑网页本身的主题相关度.为解决这一问题,本文提出根据链接上下文信息得到主题相关度预测,并将其融合到主题重要性的计算中.同时,根据网页的主题重要性排序,来指导专题爬行器的爬行方向.实验结果表明,基于网页主题重要性的排序测度TopicalRank比PageRank、TSPR(Topical-Sensitive PageRank)对专题爬行更有指导意义.
- 魏本洁董守斌
- 关键词:链接结构
- 中文网页信息检索测试集的构建、分析及应用被引量:9
- 2008年
- 随着WWW的迅速发展,Web信息检索技术成为研究者广泛关注的话题,但缺少合适的测试评测机制制约了中文网页信息检索技术的发展。参考国外测试集的构建经验,我们构建了大规模中文网页信息检索测试集CWT,并组织了SEWM中文网页检索评测,希望在国内外各个研究小组的共同参与下建立并完善CWT,一起推动中文网页信息检索技术的发展。本文在调研和分析国内外现有研究进展的基础上,详细介绍了CWT的构建原则和方法,并对CWT进行了有效的统计分析和实验研究。本文提出的构建测试集的方法为以后的研究提供了参考。
- 李静静闫宏飞
- 关键词:计算机应用中文信息处理信息检索评测测试集
- 一种复杂背景图像中文字区域提取算法被引量:1
- 2008年
- 嵌入在图像中的文字信息是图像语义的一种重要表达方式,通常反映了图像的主要内容,因此,对图像中的文字区域进行提取是十分有必要的。提出一种结合颜色、边缘及连通域特征的文字区域提取算法,先提取出彩色图像的纵向边缘,再通过两次动态行列分割得到候选文字区域,最后,根据候选区域二值图中边缘及连通域特征去除非文字区域,确定最终文字区域。通过对一定数量的复杂背景图像进行实验,证明该算法效果较好。
- 闻京张凌袁华
- 关键词:边缘检测文字区域