贡正仙
- 作品数:49 被引量:123H指数:7
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金江苏省高技术研究计划项目江苏省教育厅自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学语言文字更多>>
- 融合目标端上下文的篇章神经机器翻译
- 2024年
- 神经机器翻译在句子级翻译任务上取得了令人瞩目的效果,但是句子级翻译的译文会存在一致性、指代等篇章问题,篇章翻译通过利用上下文信息来解决上述问题。不同于以往使用源端上下文建模的方法,该文提出了融合目标端上下文信息的篇章神经机器翻译。具体地,该文借助推敲网络的思想,对篇章源端进行二次翻译,第一次基于句子级翻译,第二次翻译参考了全篇的第一次翻译结果。基于LDC中英篇章数据集和WMT英德篇章数据集的实验结果表明,在引入较少的参数的条件下,该文方法能显著提高翻译性能。同时,随着第一次翻译(即句子级译文)质量的提升,所提方法也更有效。
- 贾爱鑫李军辉贡正仙张民
- 关键词:篇章翻译
- 一种分类器训练方法、分类器和情感分类系统
- 本申请提供一种分类器训练方法、分类器和情感分类系统,上述方法包括:获取主题集合中至少一个主题的已标注的评论文本,作为训练样本;获取主题集合中至少一个主题的未标注的评论文本,作为未标注样本;采用标签传播算法预测所述未标注样...
- 李寿山张栋周国栋贡正仙
- 文献传递
- 基于交叉层级注意机制的篇章神经机器翻译方法及系统
- 本发明公开一种基于交叉层级注意机制的篇章神经机器翻译方法,包括:将未处理的语料生成包含文档结构信息的训练语料;使用训练语料训练基础结构的篇章神经机器翻译模型;利用翻译模型获取具有句子边界信息的源端文档句向量集合;将句向量...
- 李军辉陈林卿贡正仙周国栋
- 文献传递
- 增强依存结构表达的零样本跨语言事件论元角色分类
- 2024年
- 事件论元角色分类是事件抽取中的子任务,旨在为事件中的候选论元分配相应的角色。事件语料标注规则复杂、人力耗费大,在很多语言中缺少相关标注文本。零样本跨语言事件论元角色分类可以利用源语言的丰富语料建立模型,然后直接应用于标注语料匮乏的目标语言端。围绕不同语言的事件文本在依存结构上的表达共性,提出了使用BiGRU网络模块对触发词到候选论元的依存路径信息进行额外编码的方法。本文设计的编码模块能灵活地与当前主流的基于深度学习框架的事件论元角色分类模型相联合。实验结果表明,本文提出的方法能更有效地完成跨语言迁移,提高多个基准模型的分类性能。
- 张远洋贡正仙孔芳
- 融合篇章上下文有效识别的篇章级机器翻译被引量:1
- 2021年
- 篇章翻译是近来兴起的研究热点,如何在翻译文档时充分利用篇章信息一直是该研究的关键点和难点.在篇章级机器翻译中,如何选取当前句的篇章上下文是非常关键的.虽然相关研究使用的篇章上下文不尽相同,但是却少有在选取之前对上下文信息进行识别筛选.本文提出了一种融合篇章上下文有效识别的篇章级翻译模型,引入判别篇章上下文是否有效的分类任务,并根据判别结果来控制目标端对篇章上下文的利用.在中英、英德翻译任务上,与基准系统相比,本模型的翻译性能都得到了显著的提升.
- 汪浩贡正仙李军辉
- 关键词:篇章翻译
- 一种简单的神经机器翻译的动态数据扩充方法被引量:2
- 2021年
- 反向翻译作为一种用于神经机器翻译的数据扩充方法,被广泛应用于单语数据的训练.然而,这些方法通常需要大规模源端或目标端单语数据、双语词典等.基于此,提出了一种在不引入外部资源情况下的简单数据扩充方法.该方法在每次加载目标端句子时,按照一定策略对句子中单词进行随机噪声化,以实现原始平行数据目标端的动态数据扩充,从而提高目标端语言模型对句子的表达能力.不同于需要大量单语数据的反向翻译,该方法只使用平行语料.这一策略意味着不需要训练额外的逆向模型.在英德和中英翻译任务上的实验结果表明,该方法使标准Transformer系统的双语互译评估(BLEU)值分别提高了0.69和0.66个百分点.
- 刘志东李军辉贡正仙
- 利用Package & Development向导制作高级安装程序被引量:1
- 2003年
- 贡正仙
- 关键词:VB语言程序设计WINDOWS应用程序
- 基于网格的Web信息抽取技术的研究与实现
- Web文档往往用各种复杂的HTML标记来包装内部数据,但这种方式给应用系统直接使用Web文档中的数据带来了困难。Web信息抽取是处理海量数据且需要各种复杂算法支持的一种技术,因此它在一般平台上的工作效率不是很好。网格能为...
- 贡正仙
- 关键词:WEB信息抽取噪声处理网格应用GT4
- 文献传递
- 基于相似页面的Web信息抽取系统的实现被引量:16
- 2006年
- 分析了RoadRunner的核心算法,针对RoadRunner的不足,综合自动和半自动抽取阶段的各项研究成果,设计并实现了基于相似页面的W eb信息抽取系统。介绍了系统结构和实现的关键技术,包括如何获取相似页面,可靠的噪声处理和自动归纳抽取规则的算法。
- 贡正仙朱巧明李培峰
- 关键词:WEB页面信息抽取
- 异构数据库的异步迁移工具的实现被引量:1
- 2004年
- 针对目前业界存在着多种异构数据库,而它们之间往往因为系统的升级而要进行数据移植的状况,尝试实现了一个能从MSSQLServer到Oracle的典型异构迁移的自动工具.本文对JDBC在两种数据库的应用进行了详细的阐述,对提高JDBC的执行效率进行了有益的探讨.
- 李蓥陈越贡正仙
- 关键词:JDBC数据移植ORACLEMSSQL