张皓
- 作品数:3 被引量:4H指数:2
- 供职机构:中国人民解放军海军工程大学电子工程学院信息安全系更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Heritrix的增量式网络爬虫研究被引量:3
- 2013年
- 通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。
- 张皓周学广
- 关键词:HERITRIXHASH网络爬虫
- 基于网页去噪Hash的增量式网络爬虫研究被引量:2
- 2014年
- 基于网页Hash值产生的增量式网络爬虫,可以实现网页的增量抓取过程。然而,由于网页噪声的存在,经典Hash算法对文本产生的Hash值过于敏感,导致通过Hash值对比判断网页变化的过程偏离实际情况。研究提出一种去噪后Hash产生方法,通过对网页文本块进行"正文"与"噪声"分类,去除噪声后对网页正文内容产生Hash值并判断网页是否变化,提高网页增量抓取效率。实验结果表明所提出的基于去噪后Hash产生方法的增量式抓取过程,Hash值敏感度降低,有效提高了网络爬虫增量抓取性能。
- 张皓周学广
- 关键词:HASH网页去噪HERITRIX
- 基于等级保护的舰艇综合通信系统模型研究
- 2013年
- 针对国外大型水面舰船通信系统广泛采用的同步数字传输(SDH)光纤环网,综合运用等级保护技术和OPNET网络仿真技术,提出一种综合通信系统分级模型,网络仿真测试表明,该模型可以保持网络性能,增强通信系统的安全性,提高军用舰艇的综合作战能力。
- 李兴华周学广张皓
- 关键词:等级保护光纤环网综合通信系统OPNET