您的位置: 专家智库 > >

刘丽楠

作品数:2 被引量:10H指数:2
供职机构:东北大学信息科学与工程学院更多>>
发文基金:国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 2篇数据清洗
  • 2篇数据源
  • 2篇DEEP_W...
  • 1篇结构化数据
  • 1篇半结构化
  • 1篇半结构化数据
  • 1篇WEB
  • 1篇DEEP

机构

  • 2篇东北大学

作者

  • 2篇寇月
  • 2篇于戈
  • 2篇申德荣
  • 2篇刘丽楠
  • 1篇聂铁铮
  • 1篇孙高尚

传媒

  • 1篇电子学报
  • 1篇Journa...

年份

  • 1篇2010
  • 1篇2008
2 条 记 录,以下是 1-2
排序方式:
一种面向Deep Web数据源的重复记录识别模型被引量:5
2010年
重复记录是指描述现实世界中同一实体的不同的记录信息.由于从同一个领域的不同Deep Web数据源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究.在已知全局模式和全局模式与各Deep Web数据源查询接口映射关系的基础上,提出了一种重复记录识别模型.基于从Deep Web中抽取出的半结构化的数据,采用查询探测方法确定所抽取数据所匹配的属性,通过分析抽取的实例数据确定属性重要度,结合多种相似度估算器和多种算法计算记录间的相似度,进而识别重复记录.实验表明,该重复记录识别模型在Deep Web环境下是可行且有效的.
申德荣刘丽楠寇月聂铁铮于戈
关键词:数据清洗
一种deep web数据源下重复记录识别模型(英文)被引量:5
2008年
使用deep web数据源下重复记录识别模型对从多个deep web数据源中抽取出来的半结构化和无结构化的数据进行处理.首先,在数据预处理模块中将所抽取的数据生成实体记录的形式,然后,在异构记录处理模块中利用在同构记录处理模块所得到的权值,计算各实体记录的相似度,得到重复记录.与传统的重复记录识别模型不同,所提方法是在模式匹配未知的前提下实现的;并且采用带有可选算法的多个相似度估算器以达到更好的匹配效率.实验证明,该重复记录识别模型是可行且有效的.
刘丽楠寇月孙高尚申德荣于戈
关键词:DEEPWEB数据清洗半结构化数据
共1页<1>
聚类工具0