江苏省社会科学基金(12YYA002)
- 作品数:11 被引量:58H指数:5
- 相关作者:曲维光周俊生顾彦慧吉根林赵斌更多>>
- 相关机构:南京师范大学江苏省信息安全保密技术工程研究中心南京大学更多>>
- 发文基金:国家自然科学基金江苏省社会科学基金江苏省高校自然科学研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 多策略同义词获取方法研究被引量:3
- 2015年
- 提出一种多策略同义词获取方法,一方面利用《同义词词林》、《中文概念词典》等现有语义词典中蕴含的同义关系获取同义词,另一方面根据百度百科信息框(Bdbk)中特征词和汉典网(Zdic)中HTML标记获取同义词,同时采用DIPRE自动获取模式的方法,从百度百科文本中发现置信度较高的模式和同义关系。实验结果表明,所提方法在NLP&CC 2012同义词评测数据集中取得较好结果。利用该方法,以《现代汉语语法信息词典》名词部分为目标,构建一部同义词词典并进行人工校对,为《现代汉语语法信息词典》构建较为完善的语义关系体系做出尝试。
- 宋文杰顾彦慧周俊生孙玉杰严杰曲维光
- 关键词:同义词关系抽取网络百科
- 基于转发图的微博事件主题摘要方法被引量:2
- 2014年
- 自动摘要是自然语言处理中研究文本主题提取的重要课题.传统的摘要研究侧重于新闻、Web网页和博客等长文本的主题提取.本文关注以微博为代表的短文本的主题摘要,提出基于图结构的微博主题区域划分方法,并采用LDA方法提取微博热点事件的主题信息.最后,通过可视化方式展现主题内容在微博转发中的变化.
- 赵斌吉根林曲维光顾彦慧
- 关键词:可视化
- 基于联合模型的中文嵌套命名实体识别被引量:8
- 2014年
- 中文嵌套命名实体识别是自然语言处理中一个比较困难的问题.针对传统的序列化标注方法的不足,本文提出了一种新的基于联合模型的中文嵌套命名实体识别方法,该方法将嵌套命名实体识别看作是一种联合切分和标注任务.联合模型用一种改进的beam search算法作为系统的解码算法,并采用一种在线学习算法平均感知器算法作为训练算法,获得了较快的收敛速度和较好的识别效果.实验结果表明基于联合模型的方法对嵌套命名实体识别取得了更好的效果.
- 尹迪周俊生曲维光
- 关键词:感知器算法
- 基于认知属性知识库的副名结构新探
- 程度副词修饰名词的特殊现象一直为汉语学界所重视,近年来程度副词提取名词的属性特征的说法被较多接受。然而名词的属性特征到底有哪些,始终存在着主观性差异和个例分析的状态。另一方面,很多具备属性特征的名词却很难进入副名结构,也...
- 李斌马燕刘雪扬唐旭日
- 关键词:副名结构语言知识库认知语义学
- 文献传递
- 基于统计学习模型的句法分析方法综述被引量:22
- 2013年
- 句法分析是自然语言处理领域中重要的基础研究问题之一。近年来,基于统计学习模型的句法分析方法研究受到了广泛关注,多种模型与算法先后被提出。从采用的学习模型和算法类型着手,该文系统地对各种主流和前沿方法进行了归纳与分类,着重对各类模型和算法的思想进行了分析和对比,并对中文句法分析的研究现状进行了综述;最后,对句法分析下一步的研究方向与趋势进行了展望。
- 吴伟成周俊生曲维光
- 关键词:句法分析
- 基于知识图谱的未登录词语义研究被引量:2
- 2017年
- 传统的应用于未登录词语义研究的语料库包含许多限制,例如更新慢、语言相关等。为了解决此问题,提出了基于知识图谱的中文未登录词语义研究方法。知识图谱是一种包含实体、概念及语义关系的语义网络。它具有丰富的实体,并且实体及其关系的添加极为方便,使得弥补传统语料库更新慢的缺憾成为可能。在充分熟悉知识图谱的结构、数据获取方法及相关数据处理方法后,进行基于知识图谱的未登录词语义研究的探索工作,最后以百度百科(目前最大的中文知识图谱)为语料资源,在同一语义分析模型下分别进行基于知识图谱与传统语料的实验,对实验结果进行分析并提出改进方法。
- 朱峰顾敏郑好顾彦慧周俊生曲维光
- 关键词:语义标注知识图谱
- 基于词典信息和网络百科的下位词获取被引量:1
- 2014年
- 对中文下位词自动抽取方法进行研究,提出一种基于词典信息和网络百科的下位词获取方法,旨在构建一个较为完善的上下位词语知识库。基于词典信息的抽取方法利用《中文概念词典》和《中国分类主题词表》中蕴含的格式化信息获取上下位关系。基于网络百科的抽取方法利用维基百科、百度百科和互动百科,分析百科网页地址和内容格式,利用正则式抽取下位词语。对获取到的下位词进行自动过滤和人工校对,实验表明,与NLP&CC 2012上下位关系评测结果相比,本文方法取得较好效果。
- 宋文杰周俊生曲维光
- 关键词:词典网络百科
- 基于《现代汉语语义词典》的未登录词语义预测研究被引量:5
- 2016年
- 基于《现代汉语语义词典》,首先建立不同语义层次的词典,根据词典分别构建模型并进行语义预测,然后将各个模型进行集成,通过集成模型再对未登录词进行语义预测,得到较好的预测性能。利用预测模型对2000年《人民日报》语料进行未登录词语义预测和标注,最终得到带有未登录词语义义项标注的语料资源。
- 尚芬芬顾彦慧戴茹冰李斌周俊生曲维光
- 关键词:语义标注
- 基于语义解析的中文GIS自然语言接口实现研究被引量:5
- 2014年
- 该文对基于语义解析的中文地理信息系统(GIS)自然语言接口实现技术与方法进行了探索性的研究。首先,我们针对一个具体GIS应用领域设计和开发了一种函数式的形式化意义表示语言GISQL和一个中文语义解析标注语料库;然后,我们通过引入混合树作为隐变量用于构造输入句子与输出表示结构之间的对应关系,提出了一种基于含隐变量的感知器模型的语义解析算法。在开发的中文语义解析标注语料库上的实验结果显示,该文提出的语义解析算法的F1值达到了90.67%,明显优于baseline系统。更重要的是,该文的研究证明了基于语义解析方法实现中文GIS的自然语言接口是一种有效可行的途径。
- 周俊生曲维光许菊红龙毅朱耀邦
- 关键词:地理信息系统自然语言接口
- 基于重用检测的微博垃圾用户过滤算法被引量:8
- 2013年
- 针对微博中的反垃圾处理问题,本文提出了基于重用检测模型的垃圾用户检测算法,该方法综合考虑了消息序列中文本相关性和时间相关性,对垃圾用户的发布行为进行建模.按照文本粒度不同,基于重用检测模型的检测算法分为语句级检测(SRD)和词项级检测(TRD).SRD算法侧重于用户行为方式,而TRD算法侧重于垃圾消息的主题.基于真实数据集的实验表明,SRD算法在整体性能上优于TRD算法,但TRD算法具有更高的运行效率,并且检测针对性强,可发现指定类型的垃圾用户.最后,本文运用重用检测算法在垃圾用户群体检测方面做了初步尝试,实验表明基于转发关系的重用检测算法可以发现真实有效的垃圾群体用户.
- 赵斌吉根林曲维光顾彦慧