您的位置: 专家智库 > >

孙高尚

作品数:2 被引量:6H指数:1
供职机构:东北大学信息科学与工程学院更多>>
发文基金:国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 2篇DEEP_W...
  • 1篇页面
  • 1篇识别方法
  • 1篇数据清洗
  • 1篇数据源
  • 1篇结构化数据
  • 1篇半结构化
  • 1篇半结构化数据
  • 1篇WEB
  • 1篇DEEP

机构

  • 2篇东北大学

作者

  • 2篇寇月
  • 2篇于戈
  • 2篇孙高尚
  • 2篇申德荣
  • 1篇聂铁铮
  • 1篇刘丽楠

传媒

  • 1篇小型微型计算...
  • 1篇Journa...

年份

  • 1篇2010
  • 1篇2008
2 条 记 录,以下是 1-2
排序方式:
一种应用于Deep Web结果页面中分页标签的识别方法被引量:1
2010年
针对识别分页标签的必要性,提出二种Deep Web结果页面中分页标签识别模型GL(Global Base on Link)和CSL(Commix Baseon Structure and Link).GL是将一个页面的所有超链接Link都抽取出来,然后根据链接探测得到响应页面,分析响应页面的特征来判断是不是分页标签;CSL则是根据分页页面的布局特点,首先缩小分页标签的范围,然后在这个小范围内抽取超链接,最后通过探测方法来确定分页标签的位置,从而抽取出分页标签.通过实验对比,CSL在查全率上略低于GL模型,但是查准率高于GL模型,并且在探测次数上比GL模型降低了一个数量级,所以CSL是一种高效的分页标签抽取模型.
孙高尚申德荣于戈聂铁铮寇月
一种deep web数据源下重复记录识别模型(英文)被引量:5
2008年
使用deep web数据源下重复记录识别模型对从多个deep web数据源中抽取出来的半结构化和无结构化的数据进行处理.首先,在数据预处理模块中将所抽取的数据生成实体记录的形式,然后,在异构记录处理模块中利用在同构记录处理模块所得到的权值,计算各实体记录的相似度,得到重复记录.与传统的重复记录识别模型不同,所提方法是在模式匹配未知的前提下实现的;并且采用带有可选算法的多个相似度估算器以达到更好的匹配效率.实验证明,该重复记录识别模型是可行且有效的.
刘丽楠寇月孙高尚申德荣于戈
关键词:DEEPWEB数据清洗半结构化数据
共1页<1>
聚类工具0