洪宇 作品数:132 被引量:451 H指数:9 供职机构: 苏州大学计算机科学与技术学院 更多>> 发文基金: 国家自然科学基金 国家教育部博士点基金 江苏省高校自然科学研究项目 更多>> 相关领域: 自动化与计算机技术 文化科学 语言文字 更多>>
常识问答研究综述 2024年 常识问答是一项重要的自然语言理解任务,旨在利用常识知识对自然语言问句进行自动求解,以得到准确答案.常识问答在虚拟助手或社交聊天机器人等领域有着广泛的应用前景,且其蕴涵了知识挖掘与表示、语言理解与计算、答案推理和生成等关键科学问题,因而受到工业界和学术界的广泛关注.首先介绍常识问答领域的主要数据集;其次,归纳不同常识知识源在构建方式、常识来源和表现形式上的区别;同时,重点分析并对比前沿常识问答模型,以及融合常识知识的特色方法.特别地,根据不同问答任务场景中常识知识的共性和特性,建立包含属性、语义、因果、语境、抽象和意图6大类的知识分类体系.以此为支撑,针对常识知识数据集建设,感知知识融合和预训练语言模型的协作机制,以及在此基础上的常识知识预分类技术,进行前瞻性的研究,并具体报告上述模型在跨数据集迁移场景下的性能变化,及其在常识答案推理中的潜在贡献.总体上,包含对现有数据和前沿技术的回顾,也包含面向跨数据知识体系建设、技术迁移与通用化的预研内容,借以在汇报领域技术积累的前提下,为其理论和技术的进一步发展提供参考意见. 范怡帆 邹博伟 徐庆婷 李志峰 洪宇一种隐式篇章关系语料库的构建方法、装置和存储介质 本发明实施例公开了一种隐式篇章关系语料库的构建方法、装置和计算机可读存储介质,获取疑问句标题及其对应的文档信息;根据篇章关系和疑问句模板的对应关系,对各疑问句标题进行篇章关系标注;利用答案检索技术从各疑问句标题相对应的文... 洪宇 阮慧彬 孙雨 姚建民文献传递 基于维基百科的未登录词译文挖掘 被引量:2 2011年 未登录词(out of vocabulary,OOV)的查询翻译是影响跨语言信息检索(cross-language information retrieval,CLIR)性能的关键因素之一.它根据维基百科(Wikipedia)的数据结构和语言特性,将译文环境划分为目标存在环境和目标缺失环境.针对目标缺失环境下的译文挖掘难点,它采用频度变化信息和邻接信息实现候选单元抽取,并建立基于频度-距离模型、表层匹配模板和摘要得分模型的混合译文挖掘策略.实验将基于搜索引擎的未登录词挖掘技术作为baseline,并采用TOP1进行评测.实验验证基于维基百科的混合译文挖掘方法可达到0.6822的译文正确率,相对baseline取得6.98%的改进. 孙常龙 洪宇 葛运东 姚建民 朱巧明关键词:未登录词 维基百科 跨语言信息检索 基于条件变分自编码器的问题生成方法 2023年 将条件变分自编码器作为辅助模块,引入预训练语言模型的编码解码过程,通过数据增强(潜在的语义扩充)以提高模型的鲁棒性。通过建立陈述句与疑问句之间的高维分布联系,由分布采样实现一对多的问题生成。结果表明,融合条件变分自编码器不仅能生成多样性的问题,也有助于提升问题生成的模型性能。在基于SQuAD数据集划分的2个答案可知问题生成数据集Split1和Split2上,BLEU-4值分别被提升到20.75%和21.61%。 刘东 洪宇 苏玉兰 张民基于类卷积交互式注意力机制的属性抽取研究 被引量:9 2020年 在基于深度学习的属性抽取研究中,注意力机制是常用的模型之一.目前,面向属性抽取的注意力机制存在2个局限性:其一,注意力机制多为自注意力机制,这是一种全局式注意力机制,其将不相关的噪音(距离目标词较远且与之不相关的词)带入注意力向量的计算;其二,目前的注意力机制多为单层注意力机制,注意力一次建模后缺少交互性.针对这2个局限性,提出一种面向属性抽取的类卷积交互式注意力机制.该方法先将目标句输入到双向循环神经网络,借以获得每个词的隐式表达,再经过类卷积交互式注意力机制进行表示学习.类卷积交互式注意力机制分为2层注意力计算:第1层按序(从句首到句末)通过滑动窗口控制每个词的上下文宽度,并计算每个词的注意力分布向量;第2层将第1层的注意力分布向量与所有单词进行交互注意力计算,将得到的注意力向量与第1层的注意力向量拼接,最终输入到条件随机场进行属性标记.在2014—2016语义评估(semantic evaluation, SemEval)官方数据集上验证了模型的有效性.相比于基线模型,在4个数据集上的F1值分别提高了2.21,1.35,2.22,2.21个百分点. 尉桢楷 程梦 周夏冰 李志峰 邹博伟 洪宇 姚建民关键词:属性抽取 条件随机场 情感分析 基于Tri-Training的事件关系分类方法研究 2015年 事件关系分类是一项研究事件之间存在何种逻辑关系的自然语言处理技术。针对事件关系分类任务中训练语料不足的问题,提出了基于Tri-Training的事件关系分类方法。该方法首先根据已标注的语料训练三个不同的分类器,以多数投票的方式从未标注集中抽取置信度较高的样本对训练集进行扩充,然后利用新的训练集重新训练分类器,反复迭代,不断完善分类模型,最终达到提升事件关系分类性能的目的。实验结果表明,以F1值为评价标准,基于Tri-Training的事件关系分类方法在四大类事件关系上的分类性能为64.36%。 丁思远 洪宇 朱珊珊 姚建民 朱巧明关键词:框架语义 半监督学习 一种查询意图边界检测方法研究 被引量:1 2017年 针对一个特定的查询意图,用户往往需要提交多次查询请求。有效地识别连续查询请求之间的意图变化边界,能够帮助检索系统更好地理解用户完整查询意图,以提高查询推荐及查询扩展的效果,并能够辅助个性化检索中用户模型的建立。在充分分析前人研究的有效特征基础上,提出了基于主题相似度检测意图边界的方法,并在SVM及CRF模型上都取得一定的提升。实验结果显示,所提方法的最优性能比Baseline系统F值提高了2%。 王凯 洪宇 邱盈盈 王剑 姚建民 周国栋关键词:信息检索 查询意图 基于高困惑样本对比学习的隐式篇章关系识别 2022年 隐式篇章关系识别是一种自动判别论元语义关系的自然语言处理任务。该任务蕴含的关键科学问题涉及两个方面:其一是准确表征论元语义;其二是基于语义表示,有效地判别论元之间的关系类型。该文将集中在第一个方面开展研究。精准可靠的语义编码有助于关系分类,其根本原因是,编码表示的可靠性促进了正负例样本的可区分性(正例样本特指一对蕴含了“目标关系类”的论元,负例则是一对持有“非目标关系类”的论元)。近期研究显示,集成对比学习机制的语义编码方法能够提升模型在正负例样本上的可辨识性。为此,该文将对比学习机制引入论元语义的表示学习过程,利用“对比损失”驱动正负例样本的“相异性”,即在语义空间中聚合同类正样本,且驱散异类负样本的能力。特别地,该文提出基于条件自编码器的高困惑度负例生成方法,并利用这类负例增强对比学习数据的迷惑性,提升论元语义编码器的鲁棒性。该文使用篇章关系分析的公开语料集PDTB进行实验,实验结果证明,上述方法相较于未采用对比学习的基线模型,在面向对比(Comparison)、偶然(Contingency)、扩展(Expansion)及时序(Temporal)四种PDTB关系类型的二元分类场景中,分别产生了4.68%、4.63%、3.14%、12.77%的F 1值性能提升。 李晓 洪宇 窦祖俊 徐旻涵 陆煜翔 周国栋基于语义依存线索的事件关系识别方法研究 被引量:15 2013年 以事件为基本语义单元,基于事件的篇章结构信息及语义特征,通过分析事件的语义依存关系及其在演化过程中的语义依存规律,提出基于语义依存线索的事件关系识别方法,实现事件语义关系的浅层检测:判定事件之间是否存在语义关系。实验结果显示,相比于传统的基于语义相似度的识别方法,新提出的基于事件语义依存线索的事件关系识别方法获得了5%的性能提升。 马彬 洪宇 杨雪蓉 姚建民 朱巧明关键词:依存分析 基于相关子主题消解的悖向重排序方法研究 悖向重排序是一种面向个性化信息检索的新型排序策略,其借助相悖于查询意图的描述结构,实现倔强非相关反馈的识别和降解。目前,悖向重排序研究中的关键问题之一是如何建立极大区别于查询意图且最具代表性的悖向意图描述。针对这一问题,... 华松 洪宇 张剑峰 姚建民 朱巧明关键词:信息检索 查询意图 文本分割 文献传递