冶忠林 作品数:6 被引量:36 H指数:4 供职机构: 西南交通大学信息科学与技术学院 更多>> 发文基金: 国家自然科学基金 中央高校基本科研业务费专项资金 国家科技支撑计划 更多>> 相关领域: 自动化与计算机技术 更多>>
基于弱监督学习的中文网络百科关系抽取 被引量:7 2015年 实体关系抽取在信息检索、自动问答、本体学习等领域都具有重要作用。提出了基于弱监督学习的关系抽取框架。首先利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料;针对训练语料数量较少导致特征不足的问题,采用基于朴素贝叶斯的句子分类器和基于自扩展的训练方法,从未标注数据中获取更多的训练语料;然后利用条件随机场模型训练关系抽取器。实验结果表明所提方法的有效性,有现有方法相比,文中方法获得较高的准确率。 贾真 何大可 杨燕 杨宇飞 冶忠林关键词:知识获取 关系抽取 条件随机场 朴素贝叶斯 多领域自然语言问句理解研究 被引量:6 2017年 问句理解是问答系统的主要任务之一。现有的问句理解方法大多是针对简单句的,且侧重于某种句式结构的理解。提出一种多领域问句理解研究方法,其涉及领域包括人物类、电影类、音乐类、图书类、游戏类、应用类。首先基于CRF算法对问句进行分类和主体识别,然后使用谓词词典和句法分析识别出问句的谓词,最后提出一种谓词消歧方法来解决相同问句具有不同表达方式的问题。实验结果表明,在封闭测试中,所提方法的问句分类和主体识别的平均F-measure值分别为93.88%和92.44%,谓词识别和问句理解的平均准确率分别为91.03%和81.78%。因此,所做的工作基本能满足问句理解的需求。 冶忠林 贾真 尹红风关键词:问答系统 问句分类 基于语义扩展的短问题分类 被引量:16 2015年 问题分类是问答系统任务之一。特别是语音交互方式中,用户的提问较短,具有口语化特征,利用传统文本分类方法对问题进行分类的效果不佳。为此提出一种基于语义扩展的短问题分类方法,该方法使用搜索引擎对问题进行知识扩展;然后,使用主题模型进行特征词选择;最后,利用词语相似度计算获取问题的类别。实验结果表明,所提方法在1 365条真实问题集上平均F-measure值达到0.713,其值高于支持向量机(SVM)、K近邻(KNN)算法和最大熵方法。因此,该方法在问答系统中可以帮助系统提升问题分类的准确率。 冶忠林 杨燕 贾真 尹红风关键词:主题模型 搜索引擎 问答系统 一种城域智能交通管理系统实现方案 2015年 利用高清摄像机、高性能服务器及存储设备构建了一套城域智能交通管理系统,该系统具有卡口车辆监控和违章车辆处理功能。对系统处理海量数据、系统架构及系统优化方面进行了研究,为智能交通管理提供了新的解决方案。 罗景文 冶忠林 张乾荣 罗海林关键词:智能交通管理系统 海量数据处理 车辆监控 基于Tri-training与噪声过滤的弱监督关系抽取 被引量:2 2016年 弱监督关系抽取利用已有关系实体对从文本集中自动获取训练数据,有效解决了训练数据不足的问题。针对弱监督训练数据存在噪声、特征不足和不平衡,导致关系抽取性能不高的问题,文中提出NF-Tri-training(Tritraining with Noise Filtering)弱监督关系抽取算法。它利用欠采样解决样本不平衡问题,基于Tri-training从未标注数据中迭代学习新的样本,提高分类器的泛化能力,采用数据编辑技术识别并移除初始训练数据和每次迭代产生的错标样本。在互动百科采集数据集上实验结果表明NF-Tri-training算法能够有效提升关系分类器的性能。 贾真 冶忠林 尹红风 何大可关键词:关系抽取 TRI-TRAINING 数据编辑