NLP组2篇论文被EMNLP 2020接收

课题组今年2篇论文被EMNLP 2020接收。 EMNLP全称是Empirical Methods in Natural Language Processing,自然语言处理领域国际顶级会议之一。

  • Token-level Adaptive Training for Neural Machine Translation (Shuhao Gu, Jinchao Zhang, Fandong Meng, Yang Feng, Wanying Xie, Jie Zhou and Dong Yu)

在现实中,由于不同的词出现的频率不同,自然语言中存在着天然的词分布不平衡的现象,这会给神经机器翻译对于低频词的学习带来困难。
传统的NMT模型通常对不同频率的目标词采用相等的权重,这会导致神经机器翻译相较于真实的自然语言,倾向于生成更多的高频词和更少的低频词。
然而,低频词可能携带重要的语义信息,一旦被忽略,这些信息将影响整体的翻译质量。
因此,在本文中我们探索了基于词频的不同词的训练权重的自适应分配方法,在训练过程中为每个目标词分配适当的权重。
我们的目的是让那些包含语义但频率相对较低的单词在训练目标中被赋予更大的权重,以鼓励模型对这些低频词给予更多的关注。
我们的方法在中文到英文、德文到罗马尼亚文和英文到德文的翻译任务中都进一步的提高了翻译质量,特别是对于含有更多低频词的句子,我们可以分别得到1.68、1.02和0.52的BLEU值提升。进一步的分析表明,我们的方法还可以提高翻译的词汇多样性,让翻译变得更加自然。

  • Generating Diverse Translation from Model Distribution with Dropout (Xuanfu Wu, Yang Feng and Chenze Shao)

实现多样化的生成是现有的端到端机器翻译的一个瓶颈,现有方法面临提升多样性效果、简化训练等问题。而本文则另辟蹊径,将带有Dropout的模型视为一个模型分布,在训练中使其接近真实分布,而在测试的过程中通过对分布进行采样来得到多样化的结果。在本文中,作者参考了Yarin Gal的一系列的研究,采用了Monte-Carlo Dropout以及Concrete Dropout等方法,并在NIST Zh-En数据集和WMT16 En-De数据集进行实验,分析各种因素对翻译模型多样性与准确性的影响,并与之前的研究做了对比,发现我们的方法在付出较小训练代价的情况,在对翻译多样性和准确性的平衡上接近甚至超过了各个对照组。