李煜
- 作品数:3 被引量:5H指数:1
- 供职机构:北京信息科技大学更多>>
- 发文基金:北京市教委科技发展计划国家自然科学基金国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 查询日志中查询意图的自动识别被引量:1
- 2015年
- 针对用户对搜索引擎查询结果满意度不高的问题,提出一种基于用户行为分析的查询意图识别方法来提高搜索引擎查询质量。将查询意图识别视为一个分类问题,分析搜狗查询日志发现:信息事务类查询串点击的不同页面数较多,分布呈现多极值性;导航类查询串点击的不同页面数较少,分布呈现单极值性;导航类查询结果中,子页面噪声对查询分类结果产生严重干扰。根据以上特点,提出"不同页面点击数"、"点击分布值"和"异源页面点击数"三个特征,并结合前人研究,利用C4.5算法训练分类器,进行查询意图识别。实验结果中查询分类的整体正确率达到90%,与Baseline相比,提高了8.5%。结果表明,该方法对识别用户查询意图是有效的。
- 李煜吕学强李卓徐丽萍
- 关键词:查询日志
- 查询主题分类方法研究被引量:4
- 2015年
- 【目的】通过对查询串进行扩展,实现查询串的主题分类。【方法】利用伪相关反馈技术得到查询串扩展文本抽取文本特征,并提出一种向量空间压缩算法对特征进行融合,分别利用向量余弦夹角和SVM模型对其进行分类。【结果】实验结果中正确率、召回率、F值和整体正确率分别达到90.34%、89.34%、89.67%和89.24%。【局限】根据搜索引擎返回结果进行查询扩展,在线处理效率不高。【结论】该方法对查询主题分类是有效的,并且利用机器学习方法比利用余弦夹角有更好的效果,且对于提高搜索引擎质量有重要意义。
- 刘峰李煜吕学强李卓
- 关键词:查询扩展
- 搜索日志中查询分类与优化
- 随着互联网技术的飞速发展,越来越多网络用户通过搜索引擎从互联网上获取信息。用户提交的查询串体现着用户的查询需求,是用户与搜索引擎的重要沟通桥梁。因此,对于搜索引擎来说,准确理解用户提交的查询串,返回令用户更加满意的结果,...
- 李煜
- 关键词:计算机网络搜索日志信息查询主题分类