-
NLP组3篇论文被EMNLP 2021接收
课题组今年有3篇论文被EMNLP 2021接收, 其中1篇论文被EMNLP主会录用,2篇被findings of EMNLP录用。EMNLP全称是Empirical Methods in Natural Language Processing,是自然语言处理领域国际顶级会议之一;Findings of EMNLP是EMNLP 2020引入的在线附属出版物。
课题组今年有3篇论文被EMNLP 2021接收, 其中1篇论文被EMNLP主会录用,2篇被findings of EMNLP录用。EMNLP全称是Empirical Methods in Natural Language Processing,是自然语言处理领域国际顶级会议之一;Findings of EMNLP是EMNLP 2020引入的在线附属出版物。
Universal Simultaneous Machine Translation with Mixture-of-Experts Wait-k Policy (Shaolei Zhang, Yang Feng)
Main Conference, Long Paper
同步机器翻译 (Simultaneous Machine Translation, SiMT) 在阅读整个源句子之前开始翻译,因此它的性能由翻译质量和延迟来评估。 同步机器翻译在不同的场景下有不同的延时需求,为了满足不同翻译质量和延迟的要求,以前的方法通常需要训练多个不同的SiMT模型,导致计算成本很高。 在本文中,我们提出了一种基于多专家Wait-k 策略(Mixture-of-Experts Wait-k policy)的通用 SiMT 模型,以动态地引入不同的训练延迟。具体来说,multi-head attention中的多个注意力头被视为一系列wait-k专家,并被分配不同的训练延迟。对于不同的测试延迟和输入的源端句子,模型动态地调整每个专家的权重以产生正确的翻译。 在三个数据集上的实验表明,我们的方法可以在不同延迟下优于所有强基线,包括最先进的自适应策略。
Modeling Concentrated Cross-Attention for Neural Machine Translation with Gaussian Mixture Model (Shaolei Zhang, Yang Feng)
Findings of EMNLP, Long Paper
交叉注意力(cross-attention)是神经机器翻译的重要组成部分,在以前的方法中总是通过点积注意力来实现的。然而,点积注意力只考虑词之间的成对相关性,导致其在处理长句时容易出现分散和忽略源相邻关系等问题。受语言学的启发,我们认为上述问题是由于基于点积注意力的计算方式忽略了一种称为集中注意力(concentrated attention)的交叉注意力。这种集中的交叉注意力首先集中在几个中心词上,然后在它们周围传播扩散。 在这项工作中,我们应用高斯混合模型(Gaussian Mixture Model,GMM)来建模交叉注意力中的集中注意力。 我们在三个数据集上进行的实验和分析表明,所提出的方法优于基线,并且在对齐质量、N-gram 准确性和长句翻译方面都有显着提高。
Mixup Decoding for Diverse Machine Translation (Jicheng Li,Pengzhi Gao,Xuanfu Wu,Yang Feng,Zhongjun He,Hua Wu, Haifeng Wang)
Findings of EMNLP, Short Paper
本文提出了一个基于Mixup的翻译多样性增强方法,该方法在语义空间中对源端句子进行混合采样以获取不同的源端输入,进而生成不同的目标端译文。相比于已有的翻译多样性方法,我们所提出的方法在生成多样性更强的译文的同时,无需对模型结构进行修改,因而不会带来额外的训练开销。
-
NLP组1篇论文被CL期刊录用
2021年8月,课题组有1篇论文被CL录用。CL全称是Computational Linguistics,是国际计算语言学领域的顶级学术期刊,侧重模型算法和重大的理论问题。CL期刊每期录用4篇论文和2篇书评,一年共4期。自1988年创刊以来,国内单位共中稿10余篇。
Sequence-Level Training for Non-Autoregressive Neural Machine Translation (Chenze Shao, Yang Feng, Jinchao Zhang, Fandong Meng, Jie Zhou)
非自回归翻译模型在翻译速度上相比自回归模型有巨大优势,但缺乏合适的训练方法,因此性能落后于自回归模型。非自回归翻译通常以词级别的交叉熵损失为训练目标。交叉熵损失要求模型输出与参考译文逐词严格对齐,不允许模型输出发生任何偏移。然而,由于语言有丰富多样的变化,严格对齐在实际上很少出现,因此交叉熵损失难以正确评估模型输出的好坏。本文探索了对非自回归模型的序列级训练方法,从序列整体上评估模型的输出。首先,我们采用传统的强化学习方法来训练模型优化序列级的奖赏,并利用非自回归生成的特性提出几种针对性的方法来减小梯度估计的方差。更进一步,我们提出了一种基于n元组的可微训练目标,可以在不做任何近似下直接最小化输出与参考译文的差异。最后,我们用一种三阶段训练策略来结合上面的训练方法,在各个数据集上都取得了显著的提升,大幅缩小了非自回归模型与自回归模型之间的性能差距。
-
NLP组同声传译评测任务取得佳绩
近日,全球第二届同声传译测评比赛 (The 2nd Workshop on Automatic Simultaneous Translation,AutoSimTrans 2021) 公布了测评比赛结果,NLP课题组的参赛队伍在中文-英语流式输入赛道获得冠军。参赛系统主要由博士生张绍磊完成,冯洋老师提供了充分的指导。该系统描述论文《ICT’s System for AutoSimTrans 2021: Robust Char-Level Simultaneous Translation》发表在NAACL 2021 workshop中。
本届同传测评由百度联合谷歌、华为和格勒诺布尔-阿尔卑斯大学共同举办。本次大赛吸引了来自中科院计算所、平安科技、北京理工大学、厦门大学、香港中文大学等多支队伍。在本次同传测评比赛中,提交系统需要在主办方提供的70h真实场景数据上进行训练和测试,接受流式输入,并实时完成翻译。
针对真实场景中流式输入的特点,我们提出更加鲁棒的字符级同步翻译模型,并且利用数据增广和自研的Future-guided技术增强模型的领域自适应能力和预测能力。
下图展示了参赛队伍在中文-英语流式输入赛道的翻译质量-延时结果。我们提交的系统在翻译质量和延时权衡上表现最佳,尤其在低延时下表现格外强劲。在相同延时下,翻译质量高出约12BLEU;在相同翻译质量下,平均可以少等待4个单词提前完成翻译。
-
NLP组5篇论文被ACL 2021接收
课题组今年有5篇论文被ACL 2021接收, 其中4篇论文被ACL主会录用,1篇被findings of ACL录用。ACL全称是The 58th Annual Meeting of the Association for Computational Linguistics,是自然语言处理领域国际顶级会议之一;Findings of ACL是ACL 2021引入的在线附属出版物。
Importance-based Neuron Allocation for Multilingual Neural Machine Translation (Wanying Xie, Yang Feng, Shuhao Gu and Dong Yu)
ACL, long paper
基于单一模型的多语言神经机器翻译由于具有处理多种语言的能力而受到广泛关注。然而,目前的多语言翻译范式往往使模型倾向于保留通用知识,而忽略了语言特有的知识。以往的一些工作试图通过在模型中添加各种语言特有的模块来解决这一问题,但它们存在参数爆炸问题,而且需要专门的手工设计。为了解决这些问题,我们提出将模型神经元根据其跨语言的重要性分为通用部分和特定语言部分。通用神经元负责保留通用知识,参与所有语言的翻译;语言专有神经元负责保留语言专有知识,参与某些特定语言的翻译。我们在在IWSLT和Europarl语料库上进行了实验,实验结果证明了该方法的有效性和通用性。
Guiding Teacher Forcing with Seer Forcing for Neural Machine Translation (Yang Feng, Shuhao Gu, Dengji Guo, Zhengxin Yang and Chenze Shao)
ACL, long paper
虽然teacher forcing已经成为神经机器翻译的主要训练模式,但它通常只根据过去的信息进行预测,因此缺乏对未来的全局规划。为了解决这个问题,我们在训练过程中将另一个seer解码器引入到编码器-解码器框架中,用它来预测未来信息。同时,通过知识蒸馏,指导传统的解码器模拟seer译码器的行为。这样,在测试时,传统的解码器可以像seer解码器一样执行,而不需要seer解码器的参与。在汉英、英德和英罗翻译任务上的实验结果表明,该方法的性能明显优于强基线系统,并且在较大的数据集上取得了较大的改进。此外,与对抗式学习和L2正则化学习相比,知识提取是将seer解码器中的知识传递给正常解码器的更好的方法。
Conversations Are Not Flat: Modeling the Dynamic Information Flow across Dialogue Utterances (Zekang Li, Jinchao Zhang, Zhengcong Fei, Yang Feng, Jie Zhou)
ACL, long paper
现有的建模对话历史的方法主要分为两种。一种是直接拼接对话历史,这种方法在某种程度上忽略了句子之间序列关系。另外一种是多层次建模,首先对每句话做表示,再对整个对话做表示,这种方法在对每句话做表示时忽略了其他句子的作用。受到人类认知过程的启发,我们着眼于建模每句话对整体对话状态带来的影响,提出了一种建模对话动态信息流的方法DialoFlow。我们在Reddit大规模对话数据集上进行了预训练,在对话生成任务中,我们的模型在Reddit multi-reference测试集以及DailyDialog multi-reference测试集上都显著优于DialoGPT模型。除此之外,我们在预训练模型基础上提出了一种Reference-free的对话评估指标,在DSTC9交互式对话评估数据集上的评估结果与人工评估一致性达到0.9。
GTM: A Generative Triple-wise Model for Conversational Question Generation (Lei Shen, Fandong Meng, Jinchao Zhang, Yang Feng and Jie Zhou)
ACL, long paper
在对话过程中学会提问可以增加整个对话的交互性和可持续性。基于层次化的隐变量模型,我们将答案内容纳入问题生成的考量,同时建模了上文-问题-答案三元组之间的关系。在开放域对话问题生成数据集上,我们的模型取得了更好的结果,在问题的多样性和相关性指标上都有明显的提高。
Addressing Inquiries about History: An Efficient and Practical Framework for Evaluating Open-domain Chatbot Consistency (Zekang Li, Jinchao Zhang, Zhengcong Fei, Yang Feng, Jie Zhou)
Findings of ACL, long paper
随着大规模预训练技术的发展,开放域对话系统可以生成流畅的,信息丰富的对话。但是在聊天过程中经常会生成前后不一致的回复。我们认为缺少一种高效、有效的对话一致性评估方法制约了对话系统一致性的提高。现有的对话一致性评估方法主要分为两种,人工评估和自动评估。这两种评估方式都依赖于人与机器对话,而人与机器对话经常是低质量的。除此之外,人工评估耗时耗力并且没有明确的判断标准。我们通过大量的观察发现,对话系统在谈论事实性或观点性话题时容易出现不一致的情况。因此我们提出了一种高效实用的开放域对话一致性评估框架。此框架分为两部分:质询模块和冲突检测模块。质询模块通过问题生成模型生成一个关于对话历史的问题并收集被测试对话系统的回复。冲突检测模块通过自然语言推理模型对比收集到的回复和对话历史中对应的问题判断是否冲突。实验表明我们的框架可以有效高效的对对话系统的前后一致性进行评估。
-
NLP组1篇论文被NAACL 2021接收
课题组今年1篇论文被NAACL 2021接收。 NAACL(The North American Chapter of the Association for Computational Linguistics)是 ACL 的的北美分会,也是由 ACL 主办。NAACL 2021将于2021年6月6-11号召开。
Pruning-then-Expanding Model for Domain Adaptation of Neural Machine Translation (Shuhao Gu, Yang Feng, Wanying Xie)
领域自适应在神经机器翻译的实际应用中有着广泛的应用,其目的是在一般领域和目标领域都能获得比较好的翻译效果。然而,现有的领域自适应方法往往存在灾难性遗忘、无法处理差异大的领域和模型参数量爆炸等问题。为了解决这三个问题,我们提出了一种基于翻译模型中神经元或参数重要性对它们进行分而治之的方法。在我们的方法中,我们首先对模型进行剪枝,只保留重要的神经元或参数,使它们负责一般领域和目标领域的翻译。在此基础上,利用知识蒸馏的方法,进一步由原始的模型对剪枝后的模型进行训练。最后,我们加入新的参数和神经元,将模型扩展到原始大小,并对新添加的参数在目标领域上进行继续训练。我们在不同的语言和领域都进行了实验,结果表明,与几种强基线对比系统相比,我们的方法可以取得显著的改进。