您的位置: 专家智库 > >

教育部“新世纪优秀人才支持计划”(NCET-06-0161)

作品数:1 被引量:15H指数:1
相关作者:赵堃牛振东曹玉娟彭学平更多>>
相关机构:北京航天飞行控制中心北京理工大学更多>>
发文基金:教育部“新世纪优秀人才支持计划”国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇语义
  • 1篇语义网
  • 1篇语义网络
  • 1篇去重
  • 1篇去重算法
  • 1篇网络
  • 1篇网页
  • 1篇网页去重
  • 1篇网页去重算法
  • 1篇小世界
  • 1篇小世界网络
  • 1篇近似网页
  • 1篇均方差

机构

  • 1篇北京理工大学
  • 1篇北京航天飞行...

作者

  • 1篇彭学平
  • 1篇曹玉娟
  • 1篇牛振东
  • 1篇赵堃

传媒

  • 1篇软件学报

年份

  • 1篇2011
1 条 记 录,以下是 1-1
排序方式:
基于概念和语义网络的近似网页检测算法被引量:15
2011年
在搜索引擎的检索结果页面中,用户经常会得到内容近似的网页.为了提高检索整体性能和用户满意度,提出了一种基于概念和语义网络的近似网页检测算法DWDCS(near-duplicate webpages detection based on concept and semantic network).改进了经典基于小世界理论提取文档关键词的算法.首先对文档概念进行抽取和归并,不但解决了"表达差异"问题,而且有效降低了语义网络的复杂度;从网络结构的几何特征对其进行分析,同时利用网页的语法和结构信息构建特征向量进行文档相似度的计算,由于无须使用语料库,使得算法天生具有领域无关的优点.实验结果表明,与经典的网页去重算法(I-Match)和单纯依赖词汇共现小世界模型的算法相比,DWDCS具有很好的抵抗噪声的能力,在大规模实验中获得了准确率>90%和召回率>85%的良好测试结果.良好的时空间复杂度及算法性能不依赖于语料库的优点,使其在大规模网页去重实际应用中获得了良好的效果.
曹玉娟牛振东赵堃彭学平
关键词:网页去重算法小世界网络近似网页均方差
共1页<1>
聚类工具0