课题组今年2篇论文被AAAI 2020接收。 AAAI会议由人工智能促进协会AAAI(Association for the Advancement of Artificial Intelligence)主办,是人工智能顶级会议之一。AAAI 2020将于2020年2月在美国纽约召开。
Modeling Fluency and Faithfulness for Diverse Neural Machine Translation. (Yang Feng, Wanying Xie, Shuhao Gu, Chenze Shao, Wen Zhang, Zhengxin Yang, Dong Yu)
神经机器翻译模型通常采用Teacher Forcing策略来进行训练,在该策略下,每个源句子都给定一个Ground Truth,在每个时间步翻译模型都被强制生成一个0-1分布,即只有Ground Truth的词语的概率为1,其他词语的概率为0。通过这种方式,强制每个时间步生成对应的Ground Truth词语。实际情况是即使是在训练集上,翻译模型也不能每次都输出Ground Truth词语作为翻译,甚至有时候Ground Truth词语的概率很小,但是,0-1分布将所有的概率分布仅通过Ground Truth词语进行梯度回传,词表中其他的词语均被忽略,从而影响了参数训练。为了解决这个问题,我们提出在神经机器翻译模型中引入一个评估模块,对生成的译文从流利度和忠实度两个方面进行评估,并用得到的评估分数用来指导训练阶段译文的概率分布,而在测试的时候,可以完全抛弃该评估模块,采用传统的Transformer模型进行解码。具体来说,我们的方法在Transformer的编码器-解码器结构的基础上添加了一个评估解码器,该解码器和Transformer的翻译解码器共享一个编码器。在评估模块中,对于流利度的评估,我们分别采用了一个历史编码器和一个未来编码器,来对过去时间步生成的译文以及未来时间步的Ground Truth词语进行编码,将这两部分编码进行融合作为当前词语的上下文表示,将在上下文的情况下生成当前词语的概率作为流利度;对于忠实度的评估,我们建模成一个翻译任务,即用当前词语的上下文表示检索出相关的源端表示,并将该源端表示翻译成当前词语的概率作为忠实度。为了更好的融合流利度和忠实度并能对其权重进行自动调整,我们又引入了一个融合层,来将流利度部分生成的上下文表示和忠实度部分检索的源端表示进行融合,来计算其生成当前词语的概率。最后,我们将评估模块生成的概率加入到损失函数中用于指导Transformer生成的翻译概率分布。实验中我们与Transformer模型、强化学习模型以及词袋模型进行了比较,我们的方法在中-英、英-罗马尼亚语言对上相比于所有的基线系统翻译效果均取得了显著提升。
Minimizing the Bag-of-Ngrams Difference for Non-Autoregressive Neural Machine Translation. (Chenze Shao, Jinchao Zhang, Yang Feng, Fandong Meng and Jie Zhou)
非自回归神经机器翻译模型(NAT)对目标词的生成进行独立的建模,从而显著地提升了翻译速度。然而,对非自回归模型来说,词级别的交叉熵损失函数无法准确地建模目标端的序列依赖关系,从而导致其与翻译质量的相关性较弱。因此,非自回归模型的译文中通常不太流畅,并且会带有过翻译和漏翻译的错误。在本文中,我们提出了基于模型与参考译文间n元组袋差异的训练目标,以该训练目标来训练非自回归模型。这个基于n元组袋的训练目标具有可导、高效的优点,它能够鼓励模型去捕捉目标端的序列依赖关系,与翻译质量有很好的相关性。我们在三个机器翻译数据集上进行了实验验证。实验结果表明,我们的方法在WMT14英语-德语数据集上有约5.0个BLEU值的大幅提升,在另外两个数据集上也有显著提升。