宋晖
- 作品数:7 被引量:75H指数:4
- 供职机构:上海交通大学更多>>
- 发文基金:国家自然科学基金上海市基础研究重大(重点)项目上海市科学技术委员会基础研究重点项目更多>>
- 相关领域:自动化与计算机技术文化科学政治法律更多>>
- 基于标记树对象抽取技术的Hidden Web获取研究被引量:31
- 2002年
- 目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该文提出了一套检索HiddenWeb信息的方法,给出了系统的框架结构,并详细讨论了实现的关键技术。系统采用新的基于标记树的对象抽取(Tag-Tree-basedObjectExtraction)方法自动地从Web页面中抽取HiddenWeb信息,然后在此基础上给出了结构化的HiddenWeb信息查询算法。文章最后对实验结果进行了讨论。
- 宋晖张岭叶允明马范援
- 关键词:标记树对象抽取信息检索结构化查询
- 分布式Web Crawler的研究:结构、算法和策略被引量:33
- 2002年
- 本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageRank值作为网页质量评价的标准,从而提高了爬行质量.加快爬行速度的关键是如何解除Crawler系统中的性能瓶颈,本文对此也作了详细的讨论,并提出了一种基于“滞后合并”策略的UBL数据库存取方法.实验表明,Igloo在保持高性能的同时能快速爬行到高质量的网页.
- 叶允明于水马范援宋晖张岭
- 关键词:WEB爬虫分布式系统计算机网络网页
- 行为保全制度比较研究与我国的立法建构
- 行为保全制度设立的意义在于保障人民法院生效判决内容的有效实现,保护当事人的合法权益免遭即发或持续性侵权行为所造成的难以弥补的损害。以保全的客体为标准,民事保全制度分为财产保全和行为保全两种类型。各国法律中不同程度的设立了...
- 宋晖
- 关键词:民事诉讼民事权益财产保全法律规制
- 文献传递
- 一种高性能分布式Web Crawler的设计与实现被引量:11
- 2004年
- 介绍了一种大规模、高性能、分布式的Web信息搜集器的设计及其Java实现.提出了Crawler设计中数据结构、系统功能模块和相关算法新的设计思想;对设计与实现过程中需要解决的关键问题分布式协调机制、基于内存的URL存储管理等进行了讨论,并提供了现阶段的设计、实现方法和分布式无损链接分析算法.
- 张岭叶允明宋晖于水马范援
- 关键词:分布式系统搜索引擎
- 基于多策略学习的Web挖掘算法模型研究
- 马范援宋晖黄芸于水叶允明张亮潘乐云黄新力张俊伟陆一鸣胡健
- 一、理论与技术部份:1. Web挖掘相关的基础理论(1) 针对Web信息抽取研究主题,提出了面向信息抽取的Web文档形式化描述方法,并给出了一种高效的动态Web信息抽取算法。(2) 针对Web信息检索研究主题,结合统计学...
- 关键词:
- 关键词:多策略学习
- 分布式信息搜集系统中URL存储检索的设计与分析被引量:5
- 2003年
- URL的存储检索效率是构建大规模分布式信息搜集系统的关键 ,其决定了系统搜集 Web文档的效率 .对 URL存储检索性能做定量分析 ,分别得出 URL存储及检索所需要达到的速度指标 .在此基础上 ,提出了两种 URL存储检索原型 ,即集中 URL服务器存储检索和分布 URL存储检索 ,并对这两种原型系统的检索速度、性能价格比、可扩展性以及可靠性进行了分析比较 .实际应用中 ,可以根据优化目标选择相应的
- 宋晖郑子颖张岭马范援
- 关键词:分布式系统
- 基于Ontology的Web信息抽取和信息集成的研究
- 该文在前人已有的研究工作基础上,重点研究了动态Web页面(包括Hidden Web)的信息抽取技术和算法,Web信息集成中的Schema匹配等问题.在研究获得的算法基础上实现了一个智能信息代理平台,并成功地应用于自然科学...
- 宋晖
- 关键词:WEB信息抽取动态WEB页面ONTOLOGY信息代理
- 文献传递