事件要素识别是事件抽取任务的重点和难点,其研究具有广阔的应用前景和巨大的现实意义。针对当前事件要素识别任务中存在的类别不平衡、无法学习标注序列的约束条件等问题,该文提出了一种基于CSOT-BiLSTM-CRF的中文事件要素识别模型。模型将双向长短期记忆网络(Bidirectional Long Short-term Memory,BiLSTM)与条件随机场(Conditional Random Field,CRF)结合,首先,在预处理阶段,提出一种CSOT(Combine Synonyms Over-sampling Technique)算法以解决类别不平衡问题;然后,利用BiLSTM神经网络从前向和后向提取文本的上下文特征;最后,通过CRF自动学习标注序列中隐藏的约束条件,并解码获取最终标注序列。实验结果表明:相较于现有的事件要素识别模型,CSOT-BiLSTM-CRF模型能有效提高要素识别的准确率。
传统的文本生成对抗方法主要采用位置置换、字符替换等方式,耗费时间较长且效果较差。针对以上问题,该文提出一种基于改进蚁群算法的对抗样本生成模型IGAS(Improved ant colony algorithm to Generate Adversarial Sample),利用蚁群算法的特点生成对抗样本,并利用类形字进行优化。首先,构建城市节点群,利用样本中的词构建城市节点群;然后对原始输入样本,利用改进的蚁群算法生成对抗样本;再针对生成结果,通过构建的中日类形字典进行字符替换,生成最终的对抗样本;最后在黑盒模式下进行对抗样本攻击实验。实验在情感分类、对话摘要生成、因果关系抽取等多种领域验证了该方法的有效性。