周国栋
- 作品数:385 被引量:1,203H指数:19
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术文化科学语言文字哲学宗教更多>>
- 基于对话结构的多轮对话生成模型被引量:5
- 2022年
- 目前,多轮对话生成研究大多使用基于RNN或Transformer的编码器-解码器架构.但这些序列模型都未能很好地考虑到对话结构对于下一轮对话生成的影响.针对此问题,在传统的编码器-解码器模型的基础上,使用图神经网络结构对对话结构信息进行建模,从而有效地刻画对话的上下文中的关联逻辑.针对对话设计了基于文本相似度的关联结构、基于话轮转换的关联结构和基于说话人的关联结构,利用图神经网络进行建模,从而实现对话上下文内的信息传递及迭代.基于DailyDialog数据集的实验结果表明,与其他基线模型相比,该模型在多个指标上有一定的提升.这说明使用图神经网络建立的模型能够有效地刻画对话中的多种关联结构,从而有利于神经网络生成高质量的对话回复.
- 姜晓彤王中卿李寿山周国栋
- 关键词:人机对话
- 汉英篇章结构平行语料库的对齐标注评估被引量:4
- 2017年
- 汉英篇章结构平行语料库是为汉英翻译文本标注对齐篇章结构信息的语料库,对齐标注是其核心工作,基本原则是"结构对齐、关系对齐"。该文基于所开发的对齐标注平台,进行人工对齐标注实验,提出切分对齐、结构对齐、关系对齐、连接词对齐、关系角色与中心对齐等对齐标注任务的评估方法,并给出评估分析。实验表明,对齐标注是构建汉英篇章结构平行语料库的合理、有效工作方式。
- 冯文贺李艳翠任函周国栋
- 关键词:篇章结构平行语料库
- 一种篇章级情感分类方法及装置
- 本申请提供了一种篇章级情感分类方法,通过收集篇章级文本和已标注极性的句子级文本,确定已标注极性的句子级文本为已分类句子级文本,从篇章级文本中的子句中获取与已分类句子级文本极性相同的待分类子句,以对篇章级文本的极性进行标注...
- 李寿山王志皓周国栋
- 文献传递
- 基于LSTM和多特征组合的电影评论专业程度分类被引量:2
- 2019年
- 社交网络上的电影评论通常既有专业评论家写的专业评论,也有普通观众写的非专业评论,区分网络电影评论是否为专业评论对于电影质量评估有着重要的价值。由于电影评论属于短文本,用词不规范,特征稀疏,因此传统的文本特征选择方法以及传统的分类模型并不能完全适用于电影评论专业程度的分类。为此,文中主要研究基于神经网络模型电影评论的专业程度分类,即判断其是专业评论还是非专业评论。首先通过基于神经网络的LSTM模型学习不同特征的表示,包括基于词的表示、基于词性的表示,以及基于依存关系的表示,然后通过融合不同特征表示来学习和捕捉有效的文本特征,从而帮助评论专业程度分类。该方法在美国著名的影评网站烂番茄网(Rotten Tomatoes)数据集上进行实验,实验结果表明,在融合了词性和依存关系特征的模型的分类正确率达到了88.30%,比仅使用词特征的基准模型提高了3.66%。这说明在模型中引入词性特征、依存关系特征能够有效提升评论专业程度分类的效果。
- 吴璠李寿山周国栋
- 关键词:神经网络SVM
- 基于情绪知识的中文微博情感分类方法被引量:33
- 2012年
- 通过对新浪微博文本进行情感信息方面的分析与研究,提出一种基于情绪知识的非监督情感分类方法。利用情绪词和表情图片2种情绪知识对大规模微博非标注语料进行筛选并自动标注,用自动标注好的语料作为训练集构建微博情感文本分类器,对微博文本进行情感极性自动分类。实验结果表明,该方法对微博文本的情感极性分类达到较好的效果。
- 庞磊李寿山周国栋
- 关键词:中文信息处理无监督学习情感分类
- 基于融合模态内和模态间关系的数据处理方法及系统
- 本申请涉及基于融合模态内和模态间关系的数据处理方法及系统,包括:获取社交网络指向目标分类的样本数据,并将样本数据划分为训练集、验证集和测试集,获得训练集样本数据、验证集样本数据和测试集样本数据;构建预设分类模型,所述预设...
- 李寿山安明慧王晶晶周国栋
- 文献传递
- 基于最大熵模型的事件论元识别方法及系统
- 本发明公开了一种基于最大熵模型的事件论元识别方法,建立最大熵分类模型,其中,所述建立最大熵分类模型包括:获取事件的实体信息并根据所述实体信息确定事件论元候选项;获取所述事件论元候选项的特征信息;将所述特征信息按照最大熵模...
- 李寿山朱珠周国栋
- 文献传递
- 基于合一句法和实体语义树的中文语义关系抽取被引量:19
- 2010年
- 该文提出了一种基于卷积树核函数的中文实体语义关系抽取方法,该方法通过在关系实例的结构化信息中加入实体语义信息,如实体类型、引用类型和GPE角色等,从而构造能有效捕获结构化信息和实体语义信息的合一句法和实体语义关系树,以提高中文语义关系抽取的性能。在ACE RDC 2005中文基准语料上进行的关系探测和关系抽取的实验表明,该方法能显著提高中文语义关系抽取性能,大类抽取的最佳F值达到67.0,这说明结构化句法信息和实体语义信息在中文语义关系抽取中具有互补性。
- 虞欢欢钱龙华周国栋朱巧明
- 基于有监督学习方法的多文档文本情感摘要被引量:3
- 2014年
- 该文研究有监督学习方法在多文档文本情感摘要中的应用。利用从亚马逊中文网和亚马逊英文网上收集的产品评论语料,抽取文本内特征、PageRank特征、情感特征和评论质量特征,基于有监督方法进行多文档文本情感摘要抽取。实验结果表明有监督学习方法比无监督学习方法在ROUGE值上有显著的提高,情感特征和评论质量特征均有助于文本情感摘要。
- 李艳翠林莉媛周国栋
- 关键词:情感特征有监督学习最大熵分类器
- 基于树核函数的“it”待消解项识别研究被引量:3
- 2010年
- 该文在基于特征的英文代词指代消解平台上,使用复合核函数,研究指代消解中待消解项"it"的识别问题。围绕"it"是否是待消解项,该文采取有效策略获得"it"句法结构信息与平面特征信息,并将它们结合起来生成"it"待消解项分类器。在测试分类器性能的同时,将其运用到代词指代消解中以检验它对指代消解的作用。最后在ACE2003基准语料上实验表明采用复合核生成的分类器具有较高的准确率,并能显著提高代词指代消解性能。
- 陈九昌孔芳朱巧明周国栋
- 关键词:复合核指代消解