-
NLP组1篇论文被COLING 2020接收
课题组今年1篇论文被COLING 2020接收。 COLING 2020全称是The 28th International Conference on Computational Linguistics,今年将在12月8-13日于线上举行。
Investigating Catastrophic Forgetting During Continual Training for Neural Machine Translation (Shuhao Gu, Yang Feng)
神经机器翻译(NMT)模型在持续学习的过程中经常会出现灾难性遗忘的现象,在这种情况下,模型往往会逐渐忘记先前学习到的知识,而去过度拟合可能具有不同分布(例如不同域)的新添加数据。虽然人们提出了许多解决这一问题的方法,但我们还不知道是什么原因造成了这种现象。在领域适应的背景下,我们从模块和参数(神经元)的角度研究灾难性遗忘的原因。通过对NMT模型中模块的研究,发现有些模块与保留源领域知识有着紧密的联系,而有些模块在领域适应中则更为重要。此外,对模型参数的研究表明,某些参数对源领域和目标领域的翻译都很重要,而且在持续学习的过程中,这些参数的变化会导致源领域的性能下降。我们在不同的语言对和领域进行了实验,以确保我们的发现的有效性和可靠性。
-
NLP组2篇论文被EMNLP 2020接收
课题组今年2篇论文被EMNLP 2020接收。 EMNLP全称是Empirical Methods in Natural Language Processing,自然语言处理领域国际顶级会议之一。
Token-level Adaptive Training for Neural Machine Translation (Shuhao Gu, Jinchao Zhang, Fandong Meng, Yang Feng, Wanying Xie, Jie Zhou and Dong Yu)
在现实中,由于不同的词出现的频率不同,自然语言中存在着天然的词分布不平衡的现象,这会给神经机器翻译对于低频词的学习带来困难。
传统的NMT模型通常对不同频率的目标词采用相等的权重,这会导致神经机器翻译相较于真实的自然语言,倾向于生成更多的高频词和更少的低频词。
然而,低频词可能携带重要的语义信息,一旦被忽略,这些信息将影响整体的翻译质量。
因此,在本文中我们探索了基于词频的不同词的训练权重的自适应分配方法,在训练过程中为每个目标词分配适当的权重。
我们的目的是让那些包含语义但频率相对较低的单词在训练目标中被赋予更大的权重,以鼓励模型对这些低频词给予更多的关注。
我们的方法在中文到英文、德文到罗马尼亚文和英文到德文的翻译任务中都进一步的提高了翻译质量,特别是对于含有更多低频词的句子,我们可以分别得到1.68、1.02和0.52的BLEU值提升。进一步的分析表明,我们的方法还可以提高翻译的词汇多样性,让翻译变得更加自然。
Generating Diverse Translation from Model Distribution with Dropout (Xuanfu Wu, Yang Feng and Chenze Shao)
实现多样化的生成是现有的端到端机器翻译的一个瓶颈,现有方法面临提升多样性效果、简化训练等问题。而本文则另辟蹊径,将带有Dropout的模型视为一个模型分布,在训练中使其接近真实分布,而在测试的过程中通过对分布进行采样来得到多样化的结果。在本文中,作者参考了Yarin Gal的一系列的研究,采用了Monte-Carlo Dropout以及Concrete Dropout等方法,并在NIST Zh-En数据集和WMT16 En-De数据集进行实验,分析各种因素对翻译模型多样性与准确性的影响,并与之前的研究做了对比,发现我们的方法在付出较小训练代价的情况,在对翻译多样性和准确性的平衡上接近甚至超过了各个对照组。
-
NLP组2篇论文被ACL 2020接收
课题组今年有2篇论文被ACL 2020接收。ACL全称是The 58th Annual Meeting of the Association for Computational Linguistics,是自然语言处理领域国际顶级会议之一。
CDL: Curriculum Dual Learning for Emotion-Controllable Response Generation (Lei Shen, Yang Feng)
融入情感因素的回复可以使对话更加吸引人并能产生共鸣,其中,情感可控的回复生成是一个重要的研究分支。现有的方法主要通过在交叉熵损失中加入正则项来强化情感表达,并且忽略掉了query/post的情感特征,而文本中情感和语义是很难分离的,这样的做法会对回复的一致性造成损失。同时,一个具有多种情感的数据集通常是多噪音的,且数据样例的学习难度也是不同的。受课程学习和对偶学习的启发,本文提出了课程对偶学习,将数据样例按照基于情感类别的学习难度进行排序,同时设计了基于语义一致性和情感表达(显式/隐式)的reward用于对偶学习的训练。在包含六类情感标签的NLPCC2017可控情感回复生成数据集上,我们的模型取得了更好的结果,尤其在回复的一致性和情感表达上都有明显的提升。
A Contextual Hierarchical Attention Network with Adaptive Objective for Dialogue State Tracking (Yong Shan, Zekang Li, Jinchao Zhang, Fandong Meng, Yang Feng, Cheng Niu, Jie Zhou)
在对话状态跟踪任务中,高效利用对话历史中的相关信息至关重要,而先前的研究对此建模尚有不足。我们提出了一种从对话历史中层次化地查询相关信息的新模型,该模型分别从词、对话轮次这两个级别建模槽位与对话历史之间的交互,并使用一个独立的上下文编码器对各轮次相关信息之间的关系进行编码。此外,我们发现槽位不均衡问题限制了对话状态跟踪任务的整体性能,于是在模型的基础上提出了一种自适应的训练目标用于缓解该问题,它能在训练过程中动态地评估各槽位的训练难度并自适应地调整各槽位的学习权重。我们的方法在两个大型对话数据集上(MultiWOZ 2.0、MultiWOZ 2.1)上取得了state-of-the-art的效果,大幅超过先前的模型,并具有良好的可伸缩性和通用性。
-
NLP组2篇论文被AAAI 2020接收
课题组今年2篇论文被AAAI 2020接收。 AAAI会议由人工智能促进协会AAAI(Association for the Advancement of Artificial Intelligence)主办,是人工智能顶级会议之一。AAAI 2020将于2020年2月在美国纽约召开。
Modeling Fluency and Faithfulness for Diverse Neural Machine Translation. (Yang Feng, Wanying Xie, Shuhao Gu, Chenze Shao, Wen Zhang, Zhengxin Yang, Dong Yu)
神经机器翻译模型通常采用Teacher Forcing策略来进行训练,在该策略下,每个源句子都给定一个Ground Truth,在每个时间步翻译模型都被强制生成一个0-1分布,即只有Ground Truth的词语的概率为1,其他词语的概率为0。通过这种方式,强制每个时间步生成对应的Ground Truth词语。实际情况是即使是在训练集上,翻译模型也不能每次都输出Ground Truth词语作为翻译,甚至有时候Ground Truth词语的概率很小,但是,0-1分布将所有的概率分布仅通过Ground Truth词语进行梯度回传,词表中其他的词语均被忽略,从而影响了参数训练。为了解决这个问题,我们提出在神经机器翻译模型中引入一个评估模块,对生成的译文从流利度和忠实度两个方面进行评估,并用得到的评估分数用来指导训练阶段译文的概率分布,而在测试的时候,可以完全抛弃该评估模块,采用传统的Transformer模型进行解码。具体来说,我们的方法在Transformer的编码器-解码器结构的基础上添加了一个评估解码器,该解码器和Transformer的翻译解码器共享一个编码器。在评估模块中,对于流利度的评估,我们分别采用了一个历史编码器和一个未来编码器,来对过去时间步生成的译文以及未来时间步的Ground Truth词语进行编码,将这两部分编码进行融合作为当前词语的上下文表示,将在上下文的情况下生成当前词语的概率作为流利度;对于忠实度的评估,我们建模成一个翻译任务,即用当前词语的上下文表示检索出相关的源端表示,并将该源端表示翻译成当前词语的概率作为忠实度。为了更好的融合流利度和忠实度并能对其权重进行自动调整,我们又引入了一个融合层,来将流利度部分生成的上下文表示和忠实度部分检索的源端表示进行融合,来计算其生成当前词语的概率。最后,我们将评估模块生成的概率加入到损失函数中用于指导Transformer生成的翻译概率分布。实验中我们与Transformer模型、强化学习模型以及词袋模型进行了比较,我们的方法在中-英、英-罗马尼亚语言对上相比于所有的基线系统翻译效果均取得了显著提升。
Minimizing the Bag-of-Ngrams Difference for Non-Autoregressive Neural Machine Translation. (Chenze Shao, Jinchao Zhang, Yang Feng, Fandong Meng and Jie Zhou)
非自回归神经机器翻译模型(NAT)对目标词的生成进行独立的建模,从而显著地提升了翻译速度。然而,对非自回归模型来说,词级别的交叉熵损失函数无法准确地建模目标端的序列依赖关系,从而导致其与翻译质量的相关性较弱。因此,非自回归模型的译文中通常不太流畅,并且会带有过翻译和漏翻译的错误。在本文中,我们提出了基于模型与参考译文间n元组袋差异的训练目标,以该训练目标来训练非自回归模型。这个基于n元组袋的训练目标具有可导、高效的优点,它能够鼓励模型去捕捉目标端的序列依赖关系,与翻译质量有很好的相关性。我们在三个机器翻译数据集上进行了实验验证。实验结果表明,我们的方法在WMT14英语-德语数据集上有约5.0个BLEU值的大幅提升,在另外两个数据集上也有显著提升。
论文:
代码:http://github.com/ictnlp/BoN-NAT
-
NLP组1篇论文被EMNLP 2019接收
课题组今年有1篇论文被EMNLP 2019接收。EMNLP全称是Empirical Methods in Natural Language Processing,自然语言处理领域国际顶级会议之一。今年将于2019年11月在中国香港召开。
1. Enhancing Context Modeling with a Query-Guided Capsule Network for Document-level NMT
(Zhengxin Yang, Jinchao Zhang, Fandong Meng, Shuhao Gu, Yang Feng and Jie Zhou)
现有的文档级机器翻译(Document-Level NMT)方法通常利用层次化的注意力网络HAN(Hierarchical Attention Network)来抽取上下文信息特征,然而HAN并没有很好的建模上下文中每个句子内部词与词以及词与待翻译句子之间的语义关系。为了解决这个问题,我们提出了一种新型且简洁的胶囊网络架构QCN(Query-Guided Capsule Network),QCN将当前待翻译句子作为Query,指导胶囊网络在提取上下文中每个句子内部语义特征的同时,考虑所提取的语义特征与当前待翻译句子语义特征的相关性。实验证明,该方法可以较为有效的提高文档级机器翻译的质量。