您的位置: 专家智库 > >

国家自然科学基金(71173164)

作品数:18 被引量:273H指数:8
相关作者:陆伟张晓娟程齐凯武川唐祥彬更多>>
相关机构:武汉大学西南大学海南师范大学更多>>
发文基金:国家自然科学基金教育部人文社会科学重点研究基地度重大研究项目国家科技支撑计划更多>>
相关领域:文化科学自动化与计算机技术更多>>

文献类型

  • 18篇中文期刊文章

领域

  • 13篇文化科学
  • 6篇自动化与计算...

主题

  • 5篇查询
  • 3篇信息检索
  • 3篇链接
  • 3篇查询意图
  • 2篇用户
  • 2篇自动识别
  • 2篇文本
  • 2篇聚类
  • 2篇查询分类
  • 1篇新闻
  • 1篇信息检索模型
  • 1篇学科
  • 1篇学科主题
  • 1篇意图
  • 1篇引文
  • 1篇用户查询
  • 1篇用户需求
  • 1篇语义挖掘
  • 1篇知识库
  • 1篇社会网

机构

  • 17篇武汉大学
  • 2篇西南大学
  • 1篇海南师范大学

作者

  • 16篇陆伟
  • 7篇张晓娟
  • 4篇武川
  • 4篇程齐凯
  • 2篇周红霞
  • 2篇唐祥彬
  • 2篇周鹏程
  • 1篇丁恒
  • 1篇陆娜
  • 1篇朱梦娴
  • 1篇刘兴帮
  • 1篇冯晓华
  • 1篇孟睿
  • 1篇黄永
  • 1篇钱坤

传媒

  • 6篇现代图书情报...
  • 4篇情报学报
  • 2篇情报科学
  • 2篇中国图书馆学...
  • 2篇图书情报工作
  • 1篇情报杂志
  • 1篇Chines...

年份

  • 1篇2018
  • 4篇2016
  • 3篇2015
  • 3篇2014
  • 4篇2013
  • 2篇2012
  • 1篇2011
18 条 记 录,以下是 1-10
排序方式:
学术文本的结构功能识别——功能框架及基于章节标题的识别被引量:50
2014年
当前学术文本挖掘研究大多数是采用基于词汇、窗口、全文的方法,往往忽略了学术文本的内在结构,导致了很多歧义性问题。本文针对当前研究不足,提出一种研究性论文的结构功能框架,对学术文本的章节功能和逻辑结构进行了定义。在此基础上本文从三个不同层次(基于章节标题、基于章节内容和标题、基于段落)论述了结构功能的自动分类问题,并从第一个层次(基于章节标题)采用词表与序列标注相结合的方法进行了结构功能的自动分类实验,取得了令人满意的效果。
陆伟黄永程齐凯
关键词:文本挖掘
基于相关性的跨模态信息检索研究被引量:7
2016年
【目的】梳理基于相关性的跨模态信息检索中的基本策略和核心问题,从提升检索效果的角度探讨偏最小二乘法用于特征子空间投影的优劣。【方法】在Wikipedia跨模态信息检索数据集上,分别采用LDA和BOW模型作为文本和图像资源的特征表达方式,以余弦距离作为相似度度量方法,利用最小二乘法替代典型相关性分析法学习特征子空间投影函数。【结果】从P@K、MAP和NDCG三个检索评价指标上,对比分析典型相关性分析、偏最小二乘回归、偏最小二乘相关三种特征子空间投影法对跨模态信息检索结果的影响,结果表明偏最小二乘相关法具有最佳效果。【局限】偏最小二乘法在处理数据时假设数据之间的关系是线性的,数据基向量之间是正交关系,因而无法解决非线性、非正交问题。【结论】使用偏最小二乘相关法学习的特征子空间投影与原始空间信息的一致性更强,跨模态信息检索结果更稳定。
丁恒陆伟
关键词:偏最小二乘法子空间投影
利用查询重构识别查询意图被引量:6
2013年
基于AOL查询日志数据集,在不给定查询意图类目体系情况下,尝试利用查询重构来识别用户查询意图。主要探讨如何识别出能表达原查询用户意图的查询重构以及如何对识别的查询意图进行聚类两个问题。人工评测结果表明,该方法能够取得较好的实验效果。
张晓娟陆伟
关键词:查询意图随机游走
新闻文档实体重要性排序研究被引量:1
2018年
[目的/意义]现有新闻文档实体排序研究大多以文档或实体为中心,如文本分类、实体链接等,关注实体在文本中的重要性的研究较少,本研究探讨基于重要性的新闻文档实体排序。[方法/过程]给定一篇文档,判断文档中实体相对文档而言的重要性,并基于此对实体进行排序。在搜狗全网新闻数据集上进行实验,并利用NDCG和逆序对比率两个指标对实体排序结果进行评价。[结果/结论]实验结果表明,基于实体频率、TF*IDF、信息熵、TextRank等的方法以及集成方法都达到了较好的效果,基于聚集系数的方法效果一般。其中基于TF*IDF的方法NDCG值为95.86%,是该指标下的最好结果;基于集成方法的逆序对比率值为84.46%,是该指标下的最好结果。
陆娜周鹏程武川
基于查询特征分析的新闻意图自动识别被引量:2
2014年
从Sogou查询日志中选取样本查询且进行人工标注,通过对标注后新闻查询的分析,提出能用于识别新闻意图的新特征,即查询表达式特征、查询随时间分布特征以及点击结果特征。根据这3个特征,利用决策树分类器实现查询中新闻意图的自动识别,结果发现:1新闻类查询的查询目标主要集中在特定主题信息以及娱乐类信息方面,其查询主题大多为娱乐、政治、体育与经济类信息;2相对非新闻查询,新闻查询具有更可能包含实体、随时间分布波动较大、点击结果之间相似度更高的特点;3本方法对查询中新闻意图的识别效果较好,其宏平均准确率、召回率、F值分别为0.76、0.73、0.74。
张晓娟陆伟雷声伟
关键词:查询意图查询分类
用户查询中潜在时间意图分析及其检索建模被引量:7
2011年
基于Sogou实验室提供的查询日志数据和新闻数据,探讨潜在时间意图查询的判断及其相关时间属性识别,构建潜在时间意图查询的检索排序模型。实验结果表明,时间属性识别的准确率为85%,且构建的检索模型能有效提高排序效果。
张晓娟陆伟周红霞
PLSA在图情领域专家专长识别中的应用被引量:9
2012年
基于图情领域权威期刊论文数据集,利用概率潜在语义分析(PLSA)算法对表征专家专长的文档进行处理,以此来定位图情领域专家的研究领域。实验结果表明,该方法具有可行性并取得较好的实验结果。
张晓娟陆伟程齐凯
关键词:PLSA
面向引用关系的引文内容标注框架研究被引量:69
2014年
引文内容分析能够帮助揭示文献引用关系的深层语义内涵。本文梳理了目前已有的引文内容标注体系,归纳出构建引文分类体系的三个主要维度,即引文功能,引文重要性,情感倾向。以支持文献引用关系分析为目标,针对引文内容分析设计出一个引文内容标注框架,其中包括揭示引文关系抽象性质的引文分类标注体系,描述被引文献具体内容的引用对象标注体系,以及记录引文客观特征的引文属性标注体系。具体的标注实验体现了该标注框架的可用性。
陆伟孟睿刘兴帮
基于上下文特征的短文本实体链接研究被引量:4
2016年
本文构建了一个面向短文本的实体链接系统,致力于鉴别出文本中指向Freebase实体的文本片段。本文将实体链接分为两步,利用现有的实体指称识别方法鉴别出实体指称,随后利用三类特征进行实体消岐,包括:实体指称-实体相似度、实体-实体相似度、候选实体上下文指称相似度。通过考虑所有的实体指称-实体对,选择得分最高的作为实体链接结果。
武川陆伟
Identifying user intent through query refinements
2013年
Purpose:In this paper,we attempt to use query refinements to identify users' search intents and seek a method for intent clustering based on real world query data.Design/methodology/approach:An experiment has been conducted to analyze selected search sessions from the American Online(AOL) query logs with a two-stage approach.The first stage is to identify underlying intent by combining query co-occurrence information with query expression similarity.The work in the second stage is to cluster identified results by constructing query vectors through performing random walks on a Markov graph.Findings:Average correctness for identifying search intent is 0.74.Precision,recall,F-score values for intent clustering are 0.73,0.72 and 0.71,respectively.The results indicate that combining session co-occurrence information and query expression similarity can further filter noises and our clustering method is more suitable for sparse data.Research limitations:We use the time-out threshold(15-minutc) method to group queries in one session,but a user may have multiple search goals at the same time and the multi-task behavior of a user is hard to capture in a session defined based on time notions.Practical implications:This study provides insights into the ways of understanding users' search intents by analyzing their queries and refinements from a new perspective.The results will help search engine developers to identify user intents.Originality/value:We propose a new method to identify users' search intents by combining session co-occurrence information and query expression similarity,and a new method for clustering sparse data.
Xiaojuan ZHANGWei LU
共2页<12>
聚类工具0