国家自然科学基金(60873105)
- 作品数:3 被引量:15H指数:2
- 相关作者:李生齐浩亮杨沐昀韩中元程晓龙更多>>
- 相关机构:哈尔滨工业大学黑龙江工程学院哈尔滨理工大学更多>>
- 发文基金:国家自然科学基金黑龙江省教育厅科学技术研究项目黑龙江省科技攻关计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 科技论文原创性检查系统的研究
- 网络的发展为人们共享信息提供了前所未有的条件,然而这也为科技论文抄袭行为提供了便利,于是判定科技论文的原创性变得尤为重要。针对这一问题,本文提出并实现了基于信息检索技术的中文科技论文的原创性检查系统。本文采用n元文法结构...
- 韩咏孔蕾蕾齐浩亮
- 关键词:信息检索
- 文献传递
- 基于回归支持向量机的信息检索
- 从本质上看,信息检索应按照文档满足用户信息需求程度进行排序,因此当前以分类和排序策略为主流的研究方式存在与信息检索目标相关性较弱的缺点。本文尝试使用回归分析策略,以文档满足用户的信息需求程度作为回归分析的目标值,利用回归...
- 韩咏齐浩亮杨沐昀李生
- 关键词:信息检索支持向量机
- 文献传递
- 面向信息检索的近邻语言模型被引量:2
- 2011年
- 面向信息检索的语言模型对单篇文档构建语言模型,存在较严重的数据稀疏问题。该文认为利用文档的近邻信息能够更合理地反映词在文档中的分布,有助于数据稀疏问题的解决,因此将文档的近邻信息加入语言模型的平滑算法中,提出近邻语言模型。该文在TREC评测的典型文档集美国能源署文件(DOE)和《华尔街日报》(WSJ)数据集上测试了在不同近邻选择来源上近邻语言模型的性能。实验结果表明,近邻语言模型对检索性能有一定的提升。
- 韩中元李生齐浩亮杨沐昀
- 关键词:信息检索语言模型
- 基于上下文的真词错误检查及校对方法
- 英文文本中的真词错误即输入的错词是和原词相似的另一个有效词。本文主要研究了对该类错误的检测。通过从所要检测的单词的上下文中提取句法和语义两个方面的特征,运用文档频率和信息增益进行特征筛选,实现了对上下文特征的有效提取。最...
- 陆玉清洪宇陆军姚建民朱巧明
- 关键词:WINNOW算法
- 文献传递
- 中文信息检索中多索引策略融合的研究被引量:4
- 2009年
- 索引策略是中文信息检索系统中重要的研究内容之一。对基于字、词和二元文法的索引策略进行研究,分析各自的特点,进行性能对比,在此基础上提出将词的索引策略与二元文法索引策略进行线性融合。应用2-泊松模型的BM25公式在TREC公开数据集上进行测试。实验表明,融合后的索引策略在主要性能评测参数平均精确率、R-精确率参数上相对较优。
- 孙育华韩中元韩咏李军
- 关键词:中文信息检索索引策略
- 基于文法特征的无监督能愿词挖掘方法研究
- 本文提出了一种基于文法的无监督方法,挖掘中文里的能愿词,这些能愿词可以成为识别人们意图和愿望的重要特征。例如"能够","必须","宁愿"等等。另外,本文还介绍了在大规模中文博客资源中自动提取并标注能愿词的方法。实验验证,...
- 洪宇张剑峰杨跃辉姚建民朱巧明
- 关键词:数据挖掘文法
- 文献传递
- 基于模板转换的平行语料自动获取
- 双语平行语料库是自然语言处理领域的重要资源。针对当前双语语料获取困难的现状,本文提出基于模板转换的方法对互联网上平行语料进行自动获取,采用基于转换模式数量和转换模式检索排序的方法进行双语平行文本验证。本系统可通过对互联网...
- 运海红韩咏何晓宁齐浩亮
- 关键词:平行语料跨语言信息检索向量空间模型
- 文献传递
- 基于特征贡献度的垃圾邮件过滤方法
- 根据邮件特征出现在垃圾邮件和非垃圾邮件中概率不同,提出了特征对邮件分类贡献度的概念,并给出了其计算公式。使用特征对分类的贡献度对基于逻辑回归的判别学习模型进行了改进,并在TREC测试集上进行了对比实验,在所选择的数据集上...
- 李军何晓宁齐浩亮
- 关键词:文本分类垃圾邮件过滤逻辑回归
- 基于模板转换的平行语料自动获取
- 双语平行语料库是自然语言处理领域的重要资源。针对当前双语语料获取困难的现状,本文提出基于模板转换的方法对互联网上平行语料进行自动获取,采用基于转换模式数量和转换模式检索排序的方法进行双语平行文本验证。本系统可通过对互联网...
- 运海红韩咏何晓宁齐浩亮
- 关键词:平行语料跨语言信息检索向量空间模型
- 文献传递
- 基于特征贡献度的垃圾邮件过滤方法
- 根据邮件特征出现在垃圾邮件和非垃圾邮件中概率不同,提出了特征对邮件分类贡献度的概念,并给出了其计算公式。使用特征对分类的贡献度对基于逻辑回归的判别学习模型进行了改进,并在TREC测试集上进行了对比实验,在所选择的数据集上...
- 李军何晓宁齐浩亮
- 关键词:文本分类垃圾邮件过滤逻辑回归
- 文献传递