您的位置: 专家智库 > >

陕西省科学技术研究发展计划项目(2007K04-11)

作品数:10 被引量:28H指数:4
相关作者:钱建立欧阳辉禄乐滨吴广茂张薇更多>>
相关机构:空军工程大学西北工业大学陕西省科学技术信息研究所更多>>
发文基金:陕西省科学技术研究发展计划项目更多>>
相关领域:自动化与计算机技术文化科学电子电信更多>>

文献类型

  • 10篇中文期刊文章

领域

  • 8篇自动化与计算...
  • 3篇文化科学
  • 1篇电子电信

主题

  • 5篇元数据
  • 4篇元数据抽取
  • 4篇数据抽取
  • 4篇抽取
  • 3篇引擎
  • 3篇搜索
  • 3篇搜索引擎
  • 3篇索引
  • 3篇相似度
  • 2篇特征相似度
  • 2篇向量
  • 2篇开放存取
  • 1篇定位技术
  • 1篇多类分类
  • 1篇兴趣度
  • 1篇学习率
  • 1篇页面
  • 1篇印本
  • 1篇语义
  • 1篇语义特征

机构

  • 7篇空军工程大学
  • 4篇西北工业大学
  • 2篇陕西省科学技...
  • 1篇西安交通大学

作者

  • 7篇钱建立
  • 4篇欧阳辉
  • 3篇禄乐滨
  • 3篇吴广茂
  • 2篇卢潇
  • 2篇张薇
  • 2篇王元直
  • 1篇乔明
  • 1篇刘军兰
  • 1篇庞春雷
  • 1篇孙滔
  • 1篇刘守义
  • 1篇蒋路

传媒

  • 4篇电子设计工程
  • 2篇情报杂志
  • 1篇电视技术
  • 1篇微电子学与计...
  • 1篇中国科技期刊...
  • 1篇计算机工程与...

年份

  • 6篇2010
  • 2篇2009
  • 2篇2008
10 条 记 录,以下是 1-10
排序方式:
基于个性化服务的相关性算法的研究
2010年
在介绍个性化服务的相关知识的基础上,通过个性化服务的技术来提高用户和系统的互动性,从而提高搜索的查准率。并针对当前搜索引擎查询的信息太多,用户查询效率不高等问题,研究个性化搜索,并结合用户兴趣度完善了向量空间模型,提出一种解决搜索查询的方法,通过验证该搜索查询方法达到比较满意的结果。
王元直卢潇钱建立欧阳辉
关键词:个性化服务兴趣度搜索引擎查询
基于特征相似度的科技论文元数据提取算法研究被引量:9
2008年
通过对论文元数据网页的分析发现论文摘要页面的各种元数据在长度、前置引导词、分隔符等方面都具有特定的规律,并据此提出了基于元数据特征的元数据抽取算法,归纳出了论文元数据的7个形式特征和2个语义特征,定义了确定特征和排除特征,描述了特征相似度算法的6个步骤,给出了分别采用正则表达式方法和特征相似度方法的试验结果,测试表明,采用特征相似度方法的提取成功率从68%提高到了95%,达到了实用水平.
钱建立吴广茂蒋路
关键词:元数据抽取特征相似度语义特征
基于SVM的论文元数据抽取方法研究被引量:6
2010年
通过分析多分类支持向量机(SVM)的特点,建立了基于平衡二叉树的支持向量机模型BBT-SVM,并在训练过程中调整相关参数,得到目标支持向量机。针对PDF文件的特点,应用pdfbox开源库对PDF文件进行解析,去除PDF文件的文件头、交叉引用表以及文件尾等额外的文档描述信息,得到目标信息;最后利用libsvm开源库对PDF格式论文解析后的目标信息进行论文元数据抽取。实验结果表明:各类元数据的查全率都在86%以上,查准率都在92%以上,F度量值都在89%以上,与基于正则表达式的方法相比提高了20%以上,效果较好。
欧阳辉禄乐滨
关键词:元数据抽取多类分类平衡二叉树
电子信息领域OA资源综述
2009年
把OA资源分为了Post-Print、Pre-Print和金色OA、绿色OA,对目前支持论文检索的国内外电子信息领域的OA资源的主办单位、收录论文数、特点进行了比较,并给出了一些站点输入关键词"Filter"查到的论文数。结果表明,在计算机领域,Citeseer最有影响,ScienceDirect的论文整体水平较高,OpenJ-gate收集的OA期刊和论文数更多;国内外中国科技论文在线的更新率较高,Socolar收录的论文数较多,开网则目前集中于电子信息领域。
钱建立吴广茂
关键词:开放存取预印本OA仓储知识库
基于加权相似度的相关性排序算法的研究被引量:2
2010年
通过研究当前搜索引擎检索信息的不足之处发现,要想提高查准率必须提高相似度,相似度越高,查准率就越高。主要研究语句相关度的相关知识,通过元数据的检索,计算检索的相似度。在此基础上,进一步结合论文元数据之间关系的相互对比,对各个元数据赋予一定权值,提出通过加权的方法进一步提高相似度的方法,经验证结果达到期望要求。
王元直卢潇钱建立
关键词:相似度搜索引擎元数据检索
开放存取期刊网站结构和页面分类研究被引量:4
2009年
通过对国内外20种期刊网站结构和页面内容的分析,总结出期刊网站的Surface、聚类、树形、干扰4种特性,把期刊网站页面分为卷期索引、期目录、论文元数据、全文4类页面,分析了不同页面种类之间的组合变化,提出了基于页面分类的OA主题蜘蛛设计方案。
钱建立刘军兰张薇
关键词:开放存取网站结构主题蜘蛛
基于证据理论的论文元数据抽取算法研究被引量:3
2010年
针对PDF文件的特点,应用pdfbox开源库对PDF文件进行解析,去除PDF文件的文件头、交叉引用表以及文件尾等额外的文档描述信息得到目标信息。在研究不确定性理论的基础上,确定初始证据各种特征的可信度计算方法,通过推理网络及证据理论的推理算法,得到各个证据的可信度,最后比较各个证据可信度,对论文元数据进行抽取。实验表明,各类元数据的查全率都在87%以上,查准率都在92%以上,与常用的正则表达式方法相比准确率提高了10%以上,大幅提高了工作效率。
欧阳辉禄乐滨
关键词:元数据抽取不确定性证据理论
Paperopen中的OA论文垂直蜘蛛设计
2008年
描述了Paperopen项目中OA期刊论文蜘蛛的总体设计方案、蜘蛛调度机制、论文全文文件命名原则、数据库设计以及页面爬取和蜘蛛调度需要注意的问题,提出通过插件技术可解决一些杂志社网站存在的论文全文链接转向问题。Paperopen采用deep web技术能够获取隐藏在数据库后面的论文数据。采用该方案设计的蜘蛛工作正常,每天可爬取论文1万篇左右,大大提高执行效率。
钱建立吴广茂张薇孙滔
关键词:搜索引擎
BP神经网络在BD1定位技术中的应用研究被引量:2
2010年
在分析北斗一号(BD1)定位特点的基础上,通过在西安丰镐东路实测大量数据,观测到BD1定位高程误差较大,难以满足用户需求。针对此类问题,采用BP神经网络的预测结果对BD1定位结果进行修正,以提高定位的精度。确定了神经网络的结构,采用实测数据对网络进行训练,并对神经网络模型进行仿真验证。仿真结果表明,该方法能有效解决BD1定位高程误差较大的问题,具有一定的实用价值。
乔明刘守义庞春雷
关键词:BP神经网络学习率
基于C4.5的论文元数据抽取算法研究被引量:4
2010年
基于特征相似度的论文元数据抽取算法与传统的DOM树方法相比,提高了论文元数据的抽取成功率。但论文元数据的抽取效率却不高,而论文元数据的抽取与蜘蛛的论文爬取是同时进行的,对元数据的抽取有实时性要求,因此影响了论文数据量的增加。经过比较研究,利用决策树中的C4.5算法对特征相似度算法进行改进,论文元数据的抽取成功率提高了2%,抽取效率提高了62%。
欧阳辉禄乐滨钱建立
关键词:元数据抽取决策树C4.5特征相似度
共1页<1>
聚类工具0