您的位置: 专家智库 > >

符建辉

作品数:13 被引量:59H指数:4
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家自然科学基金中国博士后科学基金国家社会科学基金更多>>
相关领域:自动化与计算机技术理学机械工程更多>>

文献类型

  • 10篇期刊文章
  • 1篇学位论文
  • 1篇会议论文

领域

  • 12篇自动化与计算...
  • 1篇机械工程
  • 1篇理学

主题

  • 4篇自然语言
  • 3篇种子
  • 2篇短语识别
  • 2篇隐喻
  • 2篇中文
  • 2篇自然语言理解
  • 2篇问答系统
  • 2篇聚类
  • 2篇混淆
  • 2篇汉字
  • 2篇本体
  • 2篇抽取
  • 1篇短语
  • 1篇信号
  • 1篇信号处理
  • 1篇信号处理器
  • 1篇义类
  • 1篇语言处理
  • 1篇语义
  • 1篇语义分类

机构

  • 11篇中国科学院
  • 6篇江苏科技大学
  • 5篇中国科学院大...
  • 3篇北京工业大学
  • 2篇首都师范大学
  • 1篇南京理工大学
  • 1篇中国科学院研...

作者

  • 12篇符建辉
  • 9篇王石
  • 6篇曹存根
  • 4篇王卫民
  • 3篇刘亮亮
  • 3篇王东升
  • 2篇诸峰
  • 1篇方芳
  • 1篇张再跃
  • 1篇王东升
  • 1篇贺冬春
  • 1篇曹馨宇
  • 1篇夏飞
  • 1篇丁远钧

传媒

  • 5篇中文信息学报
  • 4篇计算机科学
  • 1篇计算机应用研...
  • 1篇2013年全...

年份

  • 1篇2019
  • 2篇2018
  • 1篇2017
  • 1篇2016
  • 1篇2015
  • 1篇2014
  • 1篇2013
  • 2篇2012
  • 1篇2010
  • 1篇2007
13 条 记 录,以下是 1-10
排序方式:
汉字种子混淆集的构建方法研究被引量:7
2014年
汉字混淆集是错别字识别中的重要资源之一。在本项研究中,首先手工整理了11935个汉字的可能的错别字,然后以这些汉字为节点、"可错成"关系为边,将混淆集构造成一个错别字混淆集图。由于人工总结错别字具有很大的局限性,因此在种子错别字混淆集图的基础上,设计了自扩展算法和开源外部补充算法来对错别字混淆集图进行扩展,以发现新的错别字对。根据实验,新发现了15133组错别字对。经过随机抽样校对,准确率达到87.35%。
施恒利刘亮亮王石符建辉张再跃曹存根
光电混合联合变换相关识别技术的研究
凭借大数据量高速并行运算和可编程控制的优势,光电混合联合变换相关识别技术在自动控制等领域具有非常广泛的应用前景。实时性和畸变不变识别性能是评判实时联合变换相关识别系统性能的两个重要指标,论文就这两个方面展开了深入研究。 ...
符建辉
关键词:数字信号处理器模式识别
文献传递
基于本体和语义文法的上下文相关问答被引量:7
2016年
在问答系统中,用户的提问通常不是孤立的,而是使用连续的多个相关的问题来获取信息,用户在与这样的系统进行交互时,才会感觉更自然。在已构建的非上下文相关问答系统的基础上,该文提出了一种可以处理上下文相关问题的方法并开发了系统OSG-IQAs。方法首先识别当前问题是否是一个从问题(follow-up),并判别其与前面问题的具体的相关类别,然后根据相关类别,利用话语结构中的信息对当前的follow-up问题进行重构,并提交到非上下文相关问答系统中。最后,将方法在两个不同规模的领域进行测试,并与相关系统或方法进行比较,测试结果表明,该方法具有较好的可扩展性。在总体测试中,该方法比基线系统获得了更好地效果,同时利用手工将所有上下文相关问题进行上下文消解,系统与此也进行了比较,并获得了相近的性能。
王东升王石王卫民刘亮亮符建辉
关键词:本体上下文
一种基于聚类与分类结合的汉语隐喻短语识别方法
2018年
隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的重要地位。本研究在前人工作的实验和考察基础上,发现基于分类器来识别隐喻的方法存在数据稀疏的问题,即当训练语料中缺少需要识别的源域词数据时,分类的结果将不会太好。应对数据稀疏问题,该文提出了一种基于聚类与分类结合的隐喻短语获取方法。该方法将包含源域词S的短语进行聚类。将聚类的结果作为分类的一类特征。实验表明,使用聚类产生的特征训练出来的分类器,不仅能很好地识别训练语料中存在源域词数据的情况,也能很好地识别训练语料中缺少源域词数据的情况,具有很高的召回率。
符建辉王石王石
基于并列结构的部分整体关系获取方法被引量:2
2015年
部分整体关系是一种基础而重要的语义关系,从文本中自动获取部分整体关系是知识工程的一项基础性研究课题。该文提出了一种基于图的从Web中获取部分整体关系的方法,首先利用部分整体关系模式从Google下载语料,然后用并列结构模式从中匹配出部分概念对,据此形成图,用层次聚类算法对该图进行自动聚类,使正确的部分概念聚集在一起。在层次聚类基础上,我们挖掘并列结构的特性、图的特点和汉语的语言特点,采用惩罚逗号边、去除低频边、奖励环路、加重相同后缀和前缀等5种方法调整图中边的权重,在不损失层次聚类的高准确率条件下,大幅提高了召回率。
夏飞曹馨宇符建辉王石曹存根
关键词:图模型层次聚类
基于带约束语义文法的领域相关自然语言理解方法被引量:2
2018年
开放域问答系统通常可以借助一些数据冗余方法来提高问答准确性,而对于缺乏大规模领域语料的领域相关问答系统来说,准确理解用户的意图成为这类系统的关键。该文首先定义了一种带约束语义文法,与本体等语义资源相结合,可以在词汇级、句法级、语义级对自然语言句子的解析过程进行约束,解决自然语言理解歧义问题;然后给出了一个高效的文法匹配算法,其首先依据定义的各种约束条件预先过滤一些规则,然后依据提出的匹配度计算模型对候选的规则进行排序,找到最佳匹配。为了验证方法的有效性,将方法应用到两个实际的应用领域的信息查询系统。实验结果表明,本系统提出的方法切实有效,系统理解准确率分别达到了82.4%和86.2%,MRR值分别达到了91.6%和93.5%。
王东升王东升王石王卫民符建辉
关键词:领域本体问答系统
面向限定领域问答系统的自然语言理解方法综述被引量:27
2017年
领域无关的自然语言理解(NLU)技术在最近的十年中取得了长足的进步,然而由于基础研究与现实应用之间存在着强烈的实际需求与当前处理能力不足的矛盾,因此很多通用技术还不能在现实的问答系统中得到有效使用。针对现有的需求,开发面向领域的自然语言理解技术显得非常必要。首先对开放领域与限定领域问答系统进行了比较,并对一些典型的面向限定领域问答系统的自然语言理解技术进行了分析,然后介绍了面向限定领域问答系统的自然语言理解技术的评测标准,最后总结了目前限定领域问答系统研究存在的主要问题及未来发展方向。
王东升王卫民王石符建辉诸峰
关键词:问答系统自然语言理解评测
基于语义分类和描述框架的网络攻击知识抽取研究及其应用被引量:4
2019年
随着计算机技术的迅猛发展,自然语言处理成为计算机科学领域与人工智能领域中的一个重要方向,且文本知识获取(knowledge acquisition from text,KAT)是人工智能的重要研究内容。当前对于文本研究,大多采用关键字以及机器学习方法,准确率并不高。该文提出了一种基于语义文法的中文网络攻击事件知识获取方法。首先介绍参考FrameNet构建的语义分类和描述框架,它在现代汉语基本句模分类的基础上进行了扩充和改进。其次,重点介绍了攻击文本中最常见的遭受类语义类的设计和形成过程。然后将语义分类和描述框架应用在"网络安全"领域,形成"网络攻击语义类",并介绍在建立"网络攻击语义类"时遇到的难题,包括文法的设计中对事元的确定、复合句的处理、"的是"结构句型的分析设计、谓词设计等。最后,使用国家某安全部门提供的真实数据进行网络攻击知识抽取,实验表明该方法具有较高的准确率。
方芳王亚王石王石符建辉
关键词:知识抽取
基于种子扩充的专业术语识别方法研究被引量:6
2012年
专业术语的识别是知识抽取和文本挖掘的关键。为了提高专业术语识别的效率,提出了一种半监督的基于种子迭代扩充的专业术语识别方法,该方法只需要利用少量的训练样本通过方法自身的迭代来增加训练样本,同时生成新的模型;利用迭代生成的最终模型作为专业术语识别模型。实验结果最终证明了本方法的有效性。
王卫民贺冬春符建辉
关键词:术语抽取决策树
汉字种子混淆集的构建方法研究
汉字混淆集是错别字识别中的重要资源之一.在本项研究中,首先手工整理了11935个汉字的可能的错别字,然后以这些汉字为节点、'可错成'关系为边,将混淆集构造成一个错别字混淆集图.由于人工总结错别字具有很大的局限性,因此在种...
施恒利刘亮亮王石符建辉张再跃曹存根
文献传递
共2页<12>
聚类工具0