国家自然科学基金(60575042)
- 作品数:7 被引量:124H指数:5
- 相关作者:刘挺李生车万翔刘怀军卢志茂更多>>
- 相关机构:哈尔滨工业大学哈尔滨工程大学更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 基于双语语料库的短语复述实例获取研究
- 本文提出一种基于双语语料库的短语复述实例获取方法,尤其能够很好的抽取歧义短语的复述实例。该方法通过输入一个双语短语对约束短语的语义,利用词对齐的双语语料库,构造一个双向抽取模型从中抽取双语对的复述实例。双向抽取模型通过比...
- 李维刚刘挺李生
- 关键词:双语语料库
- 文献传递
- 面向句法分析的句子片段识别
- 句子长度对句法分析的性能有着很大的影响,无论是搜索算法的复杂度还是歧义结构的数量都会随着句子长度的增加而急剧增长。本文针对汉语句子的长度问题,使用了一种片段识别的方法:先将句子划分为多个片段, 根据语法结构,识别出每个片...
- 马金山刘挺李生
- 关键词:依存句法分析标点
- 文献传递
- 句法与词义相结合的中文代词消解
- 句法知识对代词消解有着很大的支持。近年来依存句法由于其利于描述语言中词与词之间的关系、突出核心词的特点日益得到重视。本文提出了一种中文第三人称代词消解方法,直接利用依存句法分析器的结果,构建有效的句法角色特征和名词短语的...
- 宋巍秦兵郎君刘挺
- 关键词:代词消解支持向量机
- 文献传递
- 基于信息增益改进贝叶斯模型的汉语词义消歧被引量:9
- 2008年
- 词义消歧一直是自然语言处理领域的关键问题和难点之一。通常把词义消歧作为模式分类问题进行研究,其中特征选择是一个重要的环节。该文根据贝叶斯假设提出基于信息增益的特征选择方法,并以此改进贝叶斯模型。通过信息增益计算,挖掘上下文中词语的位置信息,提高贝叶斯模型知识获取的效率,从而改善词义分类效果。该文在8个歧义词上进行了实验,结果发现改进后的贝叶斯模型在消歧正确率上比改进前平均提高了3.5个百分点,改进幅度较大,效果突出,证明了该方法的有效性。
- 范冬梅卢志茂张汝波潘树燊
- 关键词:词义消歧自然语言处理信息增益贝叶斯模型
- 基于依存分析和错误驱动的中文时间表达式识别
- 时间表达式识别是进行时间表达式归一化的基础,其识别结果的好坏直接影响归一化的效果。本文提出一种基于依存分析和错误驱动识别中文时间表达式的新方法。首先以时间触发词为切入点,据依存关系递归地识别时间表达式,大大地提高了识别效...
- 贺瑞芳秦兵刘挺潘越群李生
- 关键词:依存分析
- 文献传递
- 中文语义角色标注的特征工程被引量:47
- 2007年
- 基于统计机器学习的语义角色标注在自然语言处理领域越来越受到重视,丰富多样的特征直接决定语义角色标注系统的性能。本文针对中文的特点,在英文语义角色标注特征的基础上,提出了一些更有效的新特征和组合特征:例如,句法成分后一个词、谓语动词和短语类型的组合、谓语动词类别信息和路径的组合等,并在Chinese Proposition Bank(CPB)语料数据上,使用最大熵分类器进行了实验,系统F-Score由89.76%增加到91.31%。结果表明,这些新特征和组合特征显著提高了系统的性能。因此,目前进行语义角色标注应集中精力寻找丰富有效的特征。
- 刘怀军车万翔刘挺
- 关键词:中文信息处理语义分析语义角色标注最大熵分类器
- 基于相关性模型的中文话题跟踪研究
- 作为话题检测与跟踪的重要研究子课题,话题跟踪针对特定话题,识别后续信息流中的相关报道。针对话题本身的漂移现象,本文基于改进的相关性模型,对跟踪中伪相关反馈包含的新颖信息进行检测和建模,并在此基础上动态调整话题空间,跟踪话...
- 郑伟张宇邹博伟洪宇刘挺
- 关键词:向量空间模型
- 文献传递
- 2005年863信息检索评测哈尔滨工业大学信息检索研究室技术报告
- 2006年
- 首先用向量空间模型工具Lucene从全部网页正文信息中检索,再用语言模型工具Lemur对结果集进行重排序,然后将两次的结果进行融合,远回融合结果的前1000篇文档作为最终结果集。构造查询输入时,从主题的〈title〉字段和〈dese〉字段选择关键词,并依据tf*idf的思想对关键词赋予权值。时正式评测的50个主题集检索,获得的三项评价指标为:程序自动构造查询时,MAP=0.3107,P@10=0.624,R-Preeision=0.3672;人工构造查询时,MAP=0.3538,P@10=0.684,R-Preelsion=0.4078。
- 张志昌张宇高立琦袁新成胡晓光刘挺李生
- 关键词:向量空间模型语言模型
- 集成多种背景语义知识的共指消解
- 共指消解是信息抽取中一个重要子任务。近年来,许多学者尝试利用统计机器学习的方法来进行共指消解并取得了一定的进展.背景知识作为新的研究热点已经被越来越多的利用在自然语言处理的各个领域。本文集成多种背景语义知识作为基于二元分...
- 郎君忻舟秦兵刘挺李生
- 关键词:共指消解WORDNET维基百科
- 文献传递
- 基于依存分析和错误驱动的中文时间表达式识别被引量:23
- 2007年
- 时间表达式识别是进行时间表达式归一化的基础,其识别结果的好坏直接影响归一化的效果。本文提出一种基于依存分析和错误驱动识别中文时间表达式的新方法。首先以时间触发词为切入点,据依存关系递归地识别时间表达式,大大地提高了识别效果;然后,采用错误驱动学习来进一步增强识别效果,根据错误识别结果和人工标注的差异自动地获取和改进规则,使系统的性能又提高了近3.5%。最终在封闭测试集和开放测试集上,F1值达到了76.38%和76.57%。
- 贺瑞芳秦兵刘挺潘越群李生
- 关键词:计算机应用中文信息处理依存分析