国家教育部博士点基金(20070422107)
- 作品数:5 被引量:21H指数:2
- 相关作者:马军王向阳吕强宋玲秦英林更多>>
- 相关机构:山东大学国家电网公司山东建筑大学更多>>
- 发文基金:山东省科技攻关计划国家教育部博士点基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于本体的Deep Web语义分类研究被引量:4
- 2010年
- 针对目前Deep Web分类研究中所采用的Post-query查寻探测方法缺乏语义支持的问题,提出一个基于本体的语义查询探测分类方法。主要思想如下:首先针对一个Deep Web数据库集合,提取查询接口中的属性及其实例,半自动建立领域本体,并且通过领域本体来表示类别特征;然后利用领域本体中的概念以及相应的实例构造语义查询集;最后对待分类的Deep Web数据库利用语义查询集进行查询探测,计算查询探测返回的结果文档在领域本体中的信息覆盖量,并以此对Deep Web进行分类。实验表明:这种语义查询探测分类的方法和以往的方法相比,在准确率、查全率和F1值上有一定的提高。
- 吕强宋玲马军秦英林
- 关键词:DEEPWEB分类本体语义
- 一个基于PageRank的科技文献质量评价算法被引量:13
- 2009年
- 针对引文分析中单纯根据文献的被引次数多少来评价文献质量优劣的缺点,提出了一个基于Page-R ank算法思想的文献质量评价算法。该算法综合考虑了文献发表机构、作者的权威性、被引次数及发表时间因素,实验证实可以弥补传统引文分析中计量方法的不足。
- 王向阳马军
- 关键词:引文分析链接分析PAGERANK排序
- 综合MPEG-7颜色描述子与元数据的WEB图像分类
- 本文给出了一种WEB图片分类的新方法。该方法使用两种MPEG-7颜色描述子作为图像底层特征的描述,并通过对网页内容的分析,得到了WEB图像的元数据。元数据包括网页标题,ALT文本,周边文本以及指向图像所在网页的锚文本。分...
- 马德奎马军张磊
- 关键词:WEB图像检索元数据
- 文献传递
- 面向主题爬取的多粒度URLs优先级计算方法
- 垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个科学计算问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级。对第一个问题,本文给出利用页面的主题文本块和相关链接块的相...
- 陈竹敏马军韩晓晖雷景生
- 关键词:网页分块相关度计算
- 文献传递
- 基于遗传规划的行为模型精化方法被引量:1
- 2008年
- 行为模型的精化是软件工程中的基于模型驱动开发的关键问题.基于针对环境的形式化行为模型和形式化方法中的精化理论,提出了一种基于遗传规划的行为模型的自动精化方法.该方法将精化看作可执行的基本操作的组合过程.首先通过分析抽象行为的后置条件公式,执行基于逻辑归约的精化方法,从而生成循环结构和其他简单新行为的描述.然后利用基于遗传规划的精化方法对新行为继续精化,直到产生的程序最终由基本操作构成.由于传统的遗传规划方法对选择结构难以演化,提出了组合终止条件的概念.通过测试组合终止条件,选择结构也能较好的产生.最后以排序问题为例,给出实际的演化过程,结果说明该方法具有较强的可行性.事实上该方法适用于任何由若干基本操作组合以完成复杂操作的问题求解过程.
- 王帅强马军王海洋万建成
- 关键词:模型驱动开发进化计算
- 面向主题爬取的多粒度URLs优先级计算方法被引量:1
- 2009年
- 垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法;对第二个问题,给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法。在此基础上,提出基于上述方法的主题爬取算法。实验证明,新算法在不增加时间复杂度的前提下,在查准率和信息量总和方面明显优于其他三种经典的爬取算法。
- 陈竹敏马军韩晓晖雷景生
- 关键词:中文信息处理网页分块相关度计算
- 基于特征和范畴理论的体系结构模型形式化描述被引量:2
- 2009年
- 为解决模型驱动开发中缺乏形式化语义的问题,以有效支持模型转换和代码生成,根据面向特征的技术和范畴理论,提出了一种体系结构模型的形式化描述方法。在该方法中,利用类型范畴理论,形式化地描述软件体系结构模型及其之间的映射关系,以提供精确的语义描述。以一个聊天室系统为例说明了该方法的应用。该描述框架可用于指导模型转换规则的定义以及转换的一致性验证,从而为模型驱动开发提供有力的支持。
- 杨潇马军侯金奎
- 关键词:模型驱动开发软件体系结构形式化描述映射聊天室系统