辛洁
- 作品数:3 被引量:5H指数:2
- 供职机构:苏州大学计算机科学与技术学院智能化信息处理技术研究所更多>>
- 发文基金:江苏省普通高校研究生科研创新计划项目国家自然科学基金江苏省高校自然科学研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于MapReduce虚拟机的Deep Web数据源发现方法
- 为了提高Deep Web爬虫发现和搜集数据源的效率,提出了一种融合MapReduce和虚拟化技术实现DeepWeb海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型,通过链接过滤分类...
- 辛洁崔志明赵朋朋张广铭鲜学丰
- 关键词:数据源发现MAPREDUCE虚拟化技术云计算
- 基于MapReduce虚拟机的Deep Web数据源发现方法被引量:3
- 2011年
- 为了提高Deep Web爬虫发现和搜集数据源的效率,提出了一种融合MapReduce和虚拟化技术实现DeepWeb海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型,通过链接过滤分类、页面过滤分类、表单过滤分类等3个MapReduce过程找到Deep Web数据源接口,并利用虚拟机构建单机集群进行性能测试。实验结果显示该方法可以实现大规模数据的并行处理,有效提高爬虫数据源发现的效率,避免网络及物理资源的浪费,验证了云计算技术在Deep Web数据挖掘方面的可行性。
- 辛洁崔志明赵朋朋张广铭鲜学丰
- 关键词:数据源发现MAPREDUCEDEEP虚拟化技术
- 基于领域样本查询的Deep Web数据库分类被引量:2
- 2010年
- 提出了一种基于领域样本查询的方法以分类这类Web数据库.通过分析领域的高级查询接口自动获取领域主属性并使用领域知识为主属性构建查询样本,然后对查询接口提交试探查询,根据返回结果页面的结果模式和记录内容估计Web数据库与领域的相关程度.通过在多个领域的Web数据库上进行实验验证,说明该方法分类只提供简单查询接口的Web数据库是有效的,取得了较高的分类精确率,召回率和F-measure值.
- 鲜学丰赵朋朋辛洁方巍崔志明
- 关键词:DEEPWEBWEB数据库数据库分类