国家自然科学基金(60975055)
- 作品数:3 被引量:29H指数:2
- 相关作者:秦兵刘挺宋凡丁效黎耀炳更多>>
- 相关机构:哈尔滨工业大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向汽车领域的软文识别研究
- 2012年
- 针对面向汽车领域的软文识别问题,将软文识别分为顶贴识别、无关帖识别、广告帖识别和伪造帖识别4个子任务,并分别使用基于规则的方法和基于机器学习的方法对4类软文进行识别。基于规则的方法综合考虑汽车领域专业信息、极性词信息、作者级别信息等因素;基于机器学习的方法结合网帖内容特征和作者信息特征,使用最大熵分类器进行模型训练。实验结果表明,对于领域特征明显、具有数值化反馈信息和明确标注数据的领域,适合使用机器学习的方法进行软文识别。
- 唐都钰王大亮赵凯秦兵刘挺
- 基于中心语匹配的共指消解被引量:5
- 2011年
- 共指消解是自然语言处理的核心任务之一。在传统机器学习方法使用的平面特征基础上,该文提出一种利用中心语信息的新方法。该方法首先引进一种基于简单平面特征的实例匹配算法用于共指消解。在此基础上,又引入了先行语与照应语的中心语字符串作为新特征,并提出一种竞争模式对将中心语约束融合进实例匹配算法,提升了消解效果。该方法与其他只使用平面特征的传统机器学习方法相比,能充分地利用每一个训练实例的特征信息,进一步融合中心语字符串特征使消解效果更加准确。
- 张牧宇黎耀炳秦兵刘挺
- 关键词:共指消解
- 音乐领域典型事件抽取方法研究被引量:24
- 2011年
- 事件抽取是信息抽取领域一个重要的研究方向。该文从音乐领域的事件抽取出发,通过领域事件词聚类的方法自动发现音乐领域具有代表性的事件,然后采用基于关键词与触发词相结合的过滤方法简化了事件类型的识别过程。在事件元素识别中,该文采用了基于最大熵的事件元素识别方法。在该文构建的语料库下,最终事件类型识别的平均F值达到82.82%,事件元素识别的平均F值达到75.79%。
- 丁效宋凡秦兵刘挺
- 关键词:事件抽取
- 面向音乐领域的文本检索与挖掘系统
- 本文介绍了一个面向音乐领域的文本检索与挖掘系统——八维音乐资讯,主要通过信息抽取技术,对音乐领域的大量半结构化和非结构化的文本进行深层次的挖掘,从中抽取出有价值的信息,转换为结构化数据,目的是为用户提供精准化、全方位的音...
- 付瑞吉秦兵刘挺
- 关键词:信息抽取垂直搜索
- 文献传递
- 基于中心语匹配的共指消解
- 共指消解是自然语言处理的核心任务之一。在传统机器学习方法使用的平面特征基础上,本文提出一种利用中心语信息的新方法。该方法首先引进一种基于简单平面特征的实例匹配算法用于共指消解。在此基础上,又引入了先行语与照应语的中心语字...
- 黎耀炳张牧宇秦兵刘挺
- 关键词:共指消解
- 文献传递