谷明哲
- 作品数:6 被引量:24H指数:2
- 供职机构:中国人民大学更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- XWIS中基于预定义模式的包装器被引量:19
- 2001年
- 目前 ,从HTML文档中有效的抽取数据是一个值得研究的问题。文中提出了一种基于预定义模式的方法来构造HTML包装器 ,并将它运用到XWIS(基于XML的Web信息查询系统 )中。这种方法下 ,由用户定义模式并给出模式与HTML页面的映射关系 。
- 孟小峰王海燕谷明哲王静
- 关键词:INTERNET信息查询系统
- Web数据库技术和实例分析被引量:5
- 1999年
- Internet尤其是WWW提供了在Internet和Intranets上可获得各种数据和信息的有效途径。但是,所获得的信息作成HTML静态网页就不太适于已存在于DBMS中庞大的数据。潜在的巨大数据量必须双重管理,数据更新难于处理,并且查询能力有限。另一局限是标准的WWW技术不允许把从不同服务器的部分结果合为单一的结果页面。
- 孟小峰谷明哲
- 关键词:WEB数据库WWWINTERNET网
- 一种基于预定义模式的Wrapper维护方法
- 1引言Wrapper是Web数据集成的重要组成部分,然而众多的Wrapper生成方法都面临着维护的问题,因为Web页面经常发生变化,Wrapper的维护成为一项很难解决的问题。人们研究快速有效地自动生成Wrapper目的...
- 谷明哲王海燕孟小峰
- 关键词:WRAPPER
- 文献传递
- 基于预定义模式的Web信息抽取
- 1.引言随着Internet的快速发展,Web已经成为一种主要的信息来源。目前Web上的数据主要以HTML文档形式存在。最近出现的大量关于Web的研究主要有Web上的信息集成,智能信息代理,数据源间的互操作,客户应用的快...
- 王海燕谷明哲王静孟小峰
- 关键词:WRAPPERHTML
- 文献传递
- 基于预定义模式的Web信息抽取
- 本文针对HTML文档的信息抽取问题,提出了一种数据抽取的方法,该方法采用HTML树作为文档表示模型,边标记树作为文档的语义模型,对抽取规则给出了形式化的定义,描述了规则推导的算法,最后给出了系统的体系结构图和主要功能模块...
- 王海燕谷明哲王静孟小峰
- 关键词:数据抽取HTML文档抽取规则数据集成
- 文献传递
- 基于模式的Wrapper维护技术
- 谷明哲
- 关键词:WEB数据抽取