山东省科技攻关计划(2007GG10001002)
- 作品数:5 被引量:23H指数:3
- 相关作者:马军王向阳刘峥吕强宋玲更多>>
- 相关机构:山东大学国家电网公司山东经济学院更多>>
- 发文基金:山东省科技攻关计划国家教育部博士点基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于HITS算法的blog文摘方法
- blog文章对应了大量评论信息,评论中又包含大量的噪声,因此如何结合blog评论获取blog文章的主要内容是许多基于blog的应用所要面临的难题。以往提出的文摘方法大多是针对多文档文摘的通用方法,并未考虑blog文章的特...
- 苗家马军陈竹敏
- 关键词:BLOGHITS
- 文献传递
- 面向主题爬取的多粒度URLs优先级计算方法
- 垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个科学计算问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级。对第一个问题,本文给出利用页面的主题文本块和相关链接块的相...
- 陈竹敏马军韩晓晖雷景生
- 关键词:网页分块相关度计算
- 文献传递
- 基于本体的Deep Web语义分类研究被引量:4
- 2010年
- 针对目前Deep Web分类研究中所采用的Post-query查寻探测方法缺乏语义支持的问题,提出一个基于本体的语义查询探测分类方法。主要思想如下:首先针对一个Deep Web数据库集合,提取查询接口中的属性及其实例,半自动建立领域本体,并且通过领域本体来表示类别特征;然后利用领域本体中的概念以及相应的实例构造语义查询集;最后对待分类的Deep Web数据库利用语义查询集进行查询探测,计算查询探测返回的结果文档在领域本体中的信息覆盖量,并以此对Deep Web进行分类。实验表明:这种语义查询探测分类的方法和以往的方法相比,在准确率、查全率和F1值上有一定的提高。
- 吕强宋玲马军秦英林
- 关键词:DEEPWEB分类本体语义
- 一个基于PageRank的科技文献质量评价算法被引量:13
- 2009年
- 针对引文分析中单纯根据文献的被引次数多少来评价文献质量优劣的缺点,提出了一个基于Page-R ank算法思想的文献质量评价算法。该算法综合考虑了文献发表机构、作者的权威性、被引次数及发表时间因素,实验证实可以弥补传统引文分析中计量方法的不足。
- 王向阳马军
- 关键词:引文分析链接分析PAGERANK排序
- 面向Web论坛的多文档摘要方法
- Web论坛文章具有数据量大、信息重复度高的特点,如何快速准确地获取文章主要内容是许多基于论坛应用面临的难题。以往的多文档摘要方法由于没有考虑论坛文章的特殊性,不能有效的处理论坛文章。本文根据Web论坛文章在结构和语法上的...
- 王晖马军
- 关键词:多文档自动摘要
- 文献传递
- 综合MPEG-7颜色描述子与元数据的WEB图像分类
- 本文给出了一种WEB图片分类的新方法。该方法使用两种MPEG-7颜色描述子作为图像底层特征的描述,并通过对网页内容的分析,得到了WEB图像的元数据。元数据包括网页标题,ALT文本,周边文本以及指向图像所在网页的锚文本。分...
- 马德奎马军张磊
- 关键词:WEB图像检索元数据
- 文献传递
- 基于主题模型LDA的多文档自动摘要
- 随着Web上文档数量的指数型增长,文档摘要起到越来越重要的作用,近年来使用概率主题模型表示多文档摘要问题受到研究者的关注。LDA(Latent Dirichlet Allocation)是主题模型中具有代表性的概率生成性...
- 杨潇马军杨同峰杜言琦邵海敏
- 关键词:多文档自动文摘主题模型LDA
- 文献传递
- 面向主题爬取的多粒度URLs优先级计算方法被引量:1
- 2009年
- 垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法;对第二个问题,给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法。在此基础上,提出基于上述方法的主题爬取算法。实验证明,新算法在不增加时间复杂度的前提下,在查准率和信息量总和方面明显优于其他三种经典的爬取算法。
- 陈竹敏马军韩晓晖雷景生
- 关键词:中文信息处理网页分块相关度计算
- 基于版块的论坛增量搜集策略
- 本文研究论坛的增量搜集问题。由于在论坛中同一主题通常分布在多个页面上,而传统增量搜集技术的重抓取策略通常是基于单个页面,因此这些技术并不适于对论坛增量搜集。本文通过对许多论坛中版块变化规律的统计分析,提出了基于版块的论坛...
- 杜言琦马军
- 文献传递
- 一种基于图划分和图像搜索引擎的图像标注改善算法被引量:4
- 2011年
- 提出了一种基于图划分和图像搜索引擎的图像标注改善算法,通过对待标注图像的候选标注词进行去噪处理,提高标注的准确性.算法的核心思想是将候选标注词作为图的顶点,将标注词间的相关度作为边的权值,从而把图像标注改善问题转换为图划分问题.用2个参数对标注词间的相似度进行加权处理后计算出边的权值:参数1是根据图像搜索引擎返回结果计算出的候选标注词与待标注图像视觉特征之间的相关度;参数2是候选标注词在待标注图像所属页面中的重要程度,此参数仅适用于Web图像.然后,用启发式最大割算法对构造出的图进行二划分,最后从划分出的2个顶点集中选择其一作为最终标注.实验结果表明,对比已有方法,使用本算法对非Web图像和Web图像进行标注改善后,最终的标注结果都更加准确.
- 刘峥马军
- 关键词:图划分海明距离