您的位置: 专家智库 > >

国家自然科学基金(61070111)

作品数:10 被引量:49H指数:4
相关作者:王斌李锐张冠元马宏远卫冰洁更多>>
相关机构:中国科学院中国科学院大学中国科学院研究生院更多>>
发文基金:国家自然科学基金教育部科学技术研究重点项目国家重点基础研究发展计划更多>>
相关领域:自动化与计算机技术电子电信更多>>

文献类型

  • 10篇中文期刊文章

领域

  • 9篇自动化与计算...
  • 1篇电子电信

主题

  • 5篇信息检索
  • 3篇语言模型
  • 3篇搜索
  • 2篇引擎
  • 2篇搜索引擎
  • 2篇索引
  • 2篇缓存
  • 1篇信息检索方法
  • 1篇音乐信息检索
  • 1篇日志
  • 1篇日志分析
  • 1篇上下文
  • 1篇上下文信息
  • 1篇社会化标签
  • 1篇社会化标注
  • 1篇社交
  • 1篇社交网
  • 1篇社交网络
  • 1篇识别方法
  • 1篇转化率

机构

  • 10篇中国科学院
  • 5篇中国科学院大...
  • 3篇中国科学院研...
  • 1篇国家互联网应...
  • 1篇微软公司

作者

  • 10篇王斌
  • 2篇马宏远
  • 2篇李锐
  • 2篇张冠元
  • 1篇李鹏
  • 1篇吉宗诚
  • 1篇鲁凯
  • 1篇卫冰洁
  • 1篇秦涛

传媒

  • 6篇中文信息学报
  • 2篇计算机研究与...
  • 1篇模式识别与人...
  • 1篇计算机学报

年份

  • 5篇2014
  • 2篇2013
  • 3篇2012
10 条 记 录,以下是 1-10
排序方式:
基于转化的互联网广告技术研究被引量:2
2014年
基于转化的互联网广告方式根据用户在浏览广告后的购买等行为对广告效果进行衡量,极大利用了互联网广告的独特优势,成为了未来互联网广告发展的趋势。该文介绍了基于转化的互联网广告的运行方式,分析了其行业应用,进一步地总结了该领域的当前研究成果,包括基于转化的竞价机制设计、转化率预测、基于转化的广告排序等。最后在此基础上,分析了存在的问题并展望未来的研究方向。
顾智宇秦涛王斌
关键词:互联网广告转化率
一种基于社会化标签的信息检索方法被引量:3
2013年
社会化标签提供了网页信息的额外描述,直观上对搜索具有重要价值。该文提出一种新颖的利用社会化标签的分类属性进行检索的方法。该方法通过将群体的标注信息建模为高层类别来估计话题模型,然后基于该话题模型来对语言模型进行平滑。建模方法可以降低标注稀疏性的影响,有效地表达标签含义,从而提升检索效果。基于TREC评测构建的数据集上的实验结果表明,该方法优于基于LDA的检索方法以及现有其他基于标签数据的检索方法。
李鹏王斌王斌
关键词:社会化标注标签语言模型
文本处理中的MapReduce技术被引量:18
2012年
用于文本处理的很多数据集已经达到TB、PB甚至更大规模,传统的单机方法难以对这些数据进行有效处理。近年来出现的MapReduce计算框架能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,得到了学术界和工业界的广泛认可和使用。目前,MapReduce已经被用于自然语言处理、机器学习及大规模图处理等领域。该文首先对MapReduce做了简单的介绍,并分析了其特点、优势还有不足;然后对MapReduce近年来在文本处理各个方面的应用进行分类总结和整理;最后对MapReduce的系统和性能方面的研究也做了一些介绍与展望。
李锐王斌
关键词:文本处理MAPREDUCE分布式计算HADOOP
一种基于预取感知接纳策略的查询结果缓存方法
2012年
针对搜索引擎查询结果缓存问题,提出了一种基于预取感知接纳策略的查询结果缓存方法,用于提高搜索引擎检索系统性能.查询结果预取导致查询结果页码的缓存缺失率具有显著差异性,结合该特性设计预取感知接纳策略,该策略包含查询评估模型以及模型特征选择方法.在该策略基础上,设计了一种查询结果缓存方法.在该搜索引擎两个月的大规模真实用户查询日志上的实验结果表明,与传统的典型方法相比,该方法可以获得6.38%~11.99%的缓存命中率提升.
马宏远王斌
关键词:缓存查询结果搜索引擎信息检索
面向微博搜索的时间感知的混合语言模型被引量:12
2014年
已有研究表明,时间是影响信息检索特别是微博检索的重要因素.现有的代表性工作是将时间信息作为文档先验融入统计语言检索模型,目前主要有跟查询无关和跟查询有关两种做法.这两种做法得到的模型均基于"时间越新文档越重要"这个简单假设.然而,对实际数据集进行分析发现,大多数微博查询的大部分相关文档并没有出现在最新时刻,因此上述假设并不成立.文中从这一点出发,定义这些相关文档集中出现的高峰点为热门时刻(Hot Time),并提出新假设"越靠近热门时刻,文档越重要".基于该假设,文中提出了基于热门时刻的4个系列模型(HTLMs).在此基础上,将查询无关模型看作是文档的背景时间信息而将查询有关模型看作是文档的独立时间信息,由此引入平滑思想提出混合的时间模型(MTLM).基于TREC Microblog数据的实验结果表明,HTLM模型优于现有的工作,而混合模型项对于单一模型会有进一步的提高.
卫冰洁王斌
关键词:语言模型信息检索社交网络
CICF:一种基于上下文信息的协同过滤推荐算法被引量:3
2014年
协同过滤能够满足用户的偏好,为用户提供个性化的指导,是当前互联网推荐引擎中的核心技术。然而,该技术的发展面临着严重的用户评分稀疏性问题。用户评分历史中包含着丰富的上下文信息,因此该文通过利用两种上下文信息对评分稀疏性问题进行了有益的探索:利用物品之间的层次关联关系挖掘用户的潜在喜好;对用户评分的短期时间段效应进行建模。并提出了基于两种上下文信息的统一模型CICF。通过在Yahoo音乐数据集上的实验表明,CICF相比传统协同过滤算法能够显著提高预测效果;并通过在不同稀疏度的训练集上的实验证实了CICF能够有效地缓解评分稀疏性问题。
鲁凯张冠元王斌
关键词:上下文信息
一种基于作者建模的微博检索模型被引量:7
2014年
近年来,微博的发展令人瞩目,微博检索已经成为一个重要的研究课题。而微博具有文本内容短、更新快、融合社交网络等特点,这些特点使微博的检索不同于传统的web检索。该文首先分析了传统的向量空间模型、概率模型以及基本的语言模型直接用于微博检索将面临的问题;接着在语言模型框架下提出了利用作者信息对微博内容进行扩展的思想,即利用作者信息重新估计微博的语言模型;然后针对话题模型在短文档训练中存在的问题,提出了使用作者的文档话题模型来进一步扩展微博的内容;最后在TREC公开数据集上进行了实验。实验结果表明,可以通过合理使用作者信息来有效的提高微博检索的效果。
李锐王斌
基于日志分析的搜索引擎查询结果缓存研究被引量:4
2012年
缓存是有效减少响应时间和系统负载的关键技术,是搜索引擎系统结构研究的重要领域之一.通过对搜狗搜索引擎在近1个月内约1500万条用户查询日志进行分析和研究,针对查询结果缓存,从查询局部性、缓存策略、缓存容量、工作负载周期性等方面进行分析.分析表明,混合缓存策略以及提高缓存容量相结合的技术能有效提高搜索引擎系统性能.
马宏远王斌
关键词:信息检索搜索引擎缓存
一种基于类别先验信息的问题检索语言模型
2014年
社区问答系统已经积累了大量的以层次类别结构进行组织的问题答案对。为了能够重用这些非常宝贵的历史问题答案对资源,设计出一个非常有效的问题检索模型至关重要。在该文中,我们在语言模型建模的框架下提出了一种新的基于问题类别先验信息的方法来提高相似问题检索的性能。特别地,我们将叶子类别语言模型看作是Dirichlet超参来对一元语言模型的参数进行加权,从而提出了一种新的基于类别先验信息的语言模型。该方法具有严格的数学推导依据。在来源于Yahoo!Answers的真实的大量数据集上做了实验比较和分析,实验结果表明我们提出的方法比之前简单的线性插值的方法具有非常显著的性能提升。
吉宗诚王斌
关键词:语言模型
一种基于液体状态机的音乐和弦序列识别方法被引量:1
2013年
文中提出一种基于液体状态机的音乐和弦序列识别方法.该方法首先将音乐信号进行切分采样并对每帧提取音级轮廓(PCP),经训练后得到一个液体状态机模型.方法提出两类奇异矩阵、和弦出现概率向量、和弦变换矩阵,它们可用在和弦序列后处理阶段.在神经网络模型、隐马尔科夫模型、回声状态网络模型、液体状态机模型上进行的初步实验得到8组实验数据.数据表明液体状态机模型对音乐和弦序列具有较好的识别效果,文中提出的后处理算法也能显著提高识别准确率.
张冠元王斌
关键词:音乐信息检索
共1页<1>
聚类工具0