刘亚宁
- 作品数:2 被引量:7H指数:2
- 供职机构:北京大学信息科学技术学院网络与信息系统研究所更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于用户偏好与语言模型的个性化引文推荐被引量:2
- 2016年
- 根据引文上下文,自动为科研人员推荐备引用的论文列表具有很大的实用价值和研究意义。在科研人员写作时,一个为引用符自动推荐引文的系统,会为科研人员节省大量的时间。对于引文推荐问题,过去的工作均主要把注意力集中到基于内容的研究上。该文认为引文推荐,不能只根据内容进行通用推荐,还需要根据不同研究者的偏好进行个性化推荐。该文利用用户的发表及引用历史,结合语言模型,构建出一个个性化引文推荐模型——PCR模型。在结合用户引用倾向性与内容相关性后,与传统的基于内容的语言模型相比,PCR模型在recall@10上获得了71.01%的性能提升,在MAP上获得了70.23%的性能提升。
- 刘亚宁严睿闫宏飞
- 关键词:个性化
- 基于64位体系结构的倒排索引压缩算法被引量:5
- 2014年
- 在64位体系结构的CPU中,字长从32位扩展到64位,处理器每次可以处理的数据也增加到64位。这对搜索引擎使用的核心数据结构——倒排索引的压缩与解压缩带来一定的影响。针对当前32位整数字对齐压缩算法Simple不适用于64位系统的问题,对其进行改进,并提出3种基于64位的字对齐压缩算法,即SimpleX64-16、SimpleX64-32和SimpleX64-64。3种算法都采用多种压缩模式,并对每个模式进行压缩空间的优化。在64位机器上GOV2和ClueWeb09B数据集的倒排索引实验结果表明,与传统的基于32位字对齐的压缩算法相比,3种基于64位字对齐的算法在解压速度方面最多提高14.5%,在压缩率方面最多提高2.5%。
- 张旭东孙志明刘亚宁单栋栋闫宏飞
- 关键词:倒排索引索引压缩搜索引擎信息检索