公共文化服务平台

2024年7月6日星期六

|

欢迎来到青海省图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

孙高尚: 作品数：2 被引量：6H指数：1; 供职机构：东北大学信息科学与工程学院更多>>; 发文基金：国家自然科学基金国家高技术研究发展计划更多>>; 相关领域：自动化与计算机技术更多>>

合作作者

申德荣东北大学信息科学与工程学院
于戈东北大学信息科学与工程学院
寇月东北大学信息科学与工程学院
刘丽楠东北大学信息科学与工程学院
聂铁铮东北大学信息科学与工程学院

作品列表
供职机构
相关作者
所获基金
研究领域

文献类型

2篇中文期刊文章

领域

2篇自动化与计算...

主题

2篇DEEP_W...
1篇页面
1篇识别方法
1篇数据清洗
1篇数据源
1篇结构化数据
1篇半结构化
1篇半结构化数据
1篇WEB
1篇DEEP

机构

2篇东北大学

作者

2篇寇月
2篇于戈
2篇孙高尚
2篇申德荣
1篇聂铁铮
1篇刘丽楠

传媒

1篇小型微型计算...
1篇Journa...

年份

1篇2010
1篇2008

共 2 条记录，以下是 1-2

全选清除导出

排序方式：

一种应用于Deep Web结果页面中分页标签的识别方法被引量：1: 2010年; 针对识别分页标签的必要性,提出二种Deep Web结果页面中分页标签识别模型GL(Global Base on Link)和CSL(Commix Baseon Structure and Link).GL是将一个页面的所有超链接Link都抽取出来,然后根据链接探测得到响应页面,分析响应页面的特征来判断是不是分页标签;CSL则是根据分页页面的布局特点,首先缩小分页标签的范围,然后在这个小范围内抽取超链接,最后通过探测方法来确定分页标签的位置,从而抽取出分页标签.通过实验对比,CSL在查全率上略低于GL模型,但是查准率高于GL模型,并且在探测次数上比GL模型降低了一个数量级,所以CSL是一种高效的分页标签抽取模型.; 孙高尚申德荣于戈聂铁铮寇月

一种deep web数据源下重复记录识别模型(英文)被引量：5: 2008年; 使用deep web数据源下重复记录识别模型对从多个deep web数据源中抽取出来的半结构化和无结构化的数据进行处理.首先,在数据预处理模块中将所抽取的数据生成实体记录的形式,然后,在异构记录处理模块中利用在同构记录处理模块所得到的权值,计算各实体记录的相似度,得到重复记录.与传统的重复记录识别模型不同,所提方法是在模式匹配未知的前提下实现的;并且采用带有可选算法的多个相似度估算器以达到更好的匹配效率.实验证明,该重复记录识别模型是可行且有效的.; 刘丽楠寇月孙高尚申德荣于戈; 关键词：DEEP WEB 数据清洗半结构化数据

全选清除导出

共1页<1>

执行隐藏清空

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张