学术动态---- 中科院计算技术研究所--自然语言处理研究组网站

2022年9月，自然语言处理组1篇论文被NeurIPS 2022接收。NeurIPS 2022的全称是Thirty-sixth Conference on Neural Information Processing Systems，是人工智能领域的顶级会议之一。NeurIPS 2022将于2022年11月28日-12月9日在美国新奥尔良举行。
　　2022年9月，自然语言处理组1篇论文被NeurIPS 2022接收。NeurIPS 2022的全称是Thirty-sixth Conference on Neural Information Processing Systems，是人工智能领域的顶级会议之一。NeurIPS 2022将于2022年11月28日-12月9日在美国新奥尔良举行。
　　被录用论文的简要介绍如下：
　　Exploring Non-Monotonic Latent Alignments for Non-Autoregressive Machine Translation (Chenze Shao, Yang Feng)
　　非自回归翻译模型能够并行生成整句译文，在解码速度上具有非常大的优势，但由于交叉熵损失无法正确地评估模型的输出，非自回归模型的性能与自回归模型有很大差距。基于CTC损失的非自回归模型能够建模参考译文与模型输出的隐式对齐，因此大幅提升了非自回归模型的性能水平，目前已成为非自回归机器翻译的主流模型之一。然而，CTC损失最早是为语音识别任务设计的，只能建模参考译文与模型输出间的单调对齐，无法处理机器翻译中普遍存在的非单调对齐现象（如下图所示），这是非自回归机器翻译领域的一个open problem。在本文中，我们针对这个问题做了系统性的研究，将对齐空间扩展为非单调隐式对齐，并考虑所有与参考译文相关的对齐来计算损失。基于此，我们提出了基于二分图匹配和n元组匹配的两种解决方案，均能显著改善非自回归模型的翻译质量。在多个翻译数据集上，我们的最佳方法均达到了与自回归模型相当的性能，并保持着对自回归模型十倍以上的解码加速。
　　

12

2022-04

NLP组1篇论文被NAACL 2022接收

2022年4月，自然语言处理组1篇论文被NAACL 2022主会接收。NAACL 2022的全称是2022 Annual Conference of the North American Chapter of the Association for Computational Linguistics – Human Language Technologies (NAACL-HLT 2022)，是 ACL 的北美分会，自然语言处理领域的顶级会议之一。NAACL 2022将于2022年7月10日-15日在美国西雅图召开。
　　2022年4月，自然语言处理组1篇论文被NAACL 2022主会接收。NAACL 2022的全称是2022 Annual Conference of the North American Chapter of the Association for Computational Linguistics – Human Language Technologies (NAACL-HLT 2022)，是 ACL 的北美分会，自然语言处理领域的顶级会议之一。NAACL 2022将于2022年7月10日-15日在美国西雅图召开。
　　被录用论文的简要介绍如下：
　　One Reference Is Not Enough: Diverse Distillation with Reference Selection for Non-Autoregressive Translation (Chenze Shao, Xuanfu Wu, Yang Feng)
　　NAACL Main Conference, long paper
　　非自回归机器翻译模型存在多峰性问题：同一个源句可能有多个正确的译文，但模型只根据参考译文计算损失函数。对此，一种解决方案是序列级知识蒸馏，它通过将参考译文替换为自回归模型的输出，使目标端的译文更具确定性。然而，蒸馏后的数据集仍存在一定程度的多峰性，另外，向特定的自回归教师模型学习会限制模型能力的上限，从而约束了非自回归模型的潜力。在本文中，我们认为非自回归模型需要更多的参考译文来训练，并对此提出了多样蒸馏和译文选择的方法。具体地，我们首先通过不同随机种子训练多个教师模型，进行多样化的知识蒸馏，生成一个包含多个高质量参考译文的数据集。在训练非自回归模型时，我们将模型的输出与所有参考译文做比较，选择最匹配模型输出的一个译文来训练模型。实验结果表明，我们的方法在多个数据集上均取得了显著的提升，达到了目前非自回归模型中最先进的性能。
　　

25

2022-02

NLP组7篇论文被ACL 2022接收

课题组今年有7篇论文被ACL 2022接收，其中6篇论文被ACL主会录用，1篇被findings of ACL录用。ACL全称是The 60th Annual Meeting of the Association for Computational Linguistics，是自然语言处理领域国际顶级会议之一；Findings of ACL是ACL 2021引入的在线附属出版物。
　　课题组今年有7篇论文被ACL 2022接收，其中6篇论文被ACL主会录用，1篇被findings of ACL录用。ACL全称是The 60th Annual Meeting of the Association for Computational Linguistics，是自然语言处理领域国际顶级会议之一；Findings of ACL是ACL 2021引入的在线附属出版物。
　　Overcoming Catastrophic Forgetting beyond Continual Learning: Balanced Training for Neural Machine Translation（Chenze Shao, Yang Feng）
　　ACL, long paper
　　神经网络模型在新数据集上训练时，通常会逐渐遗忘旧数据集上学到的知识，在持续学习中的这种现象被称为灾难性遗忘。然而，我们发现即使模型始终在同一数据集上训练，灾难性遗忘现象仍然存在，具体表现为模型对新接触的样本关注更多、对较早接触的样本关注更少，我们把这种在训练样本上的不均衡问题称为“非均衡训练”。通过实验验证，我们发现非均衡训练问题在神经网络模型广泛存在，在机器翻译任务上尤其严重。通过进一步分析，我们揭示了在机器翻译上广泛使用的检查点平均技术与非均衡训练问题的联系，并确认了非均衡训练问题会对模型性能造成影响。为缓解这一问题，我们提出了互补在线知识蒸馏技术，通过对数据集的互补切分来保证教师模型始终与学生模型互补，从而使模型能够均匀地从所有训练样本中学习。在多个机器翻译任务上的实验表明，我们的方法成功地缓解了非均衡训练问题，取得了显著的性能提升。
　　Prediction Difference Regularization against Perturbation for Neural Machine Translation (Dengji Guo, Zhengrui Ma, Yang Feng, Min Zhang)
　　ACL, long paper
　　已有工作表明，训练时在输入中添加噪声能够提升神经网络机器翻译模型的泛化能力。本文认为这种方法片面强调了模型对训练数据的过拟合，对噪声数据进行了无差别拟合，却忽视了模型对训练数据的欠拟合。利用模型在噪声输入和原始输入上的预测差异，本文分析了模型对词级别样本的过拟合和欠拟合现象，揭示了模型的欠拟合现象，并实验证明了已有方法的缺陷。最后，本文提出将预测差异作为正则项，同时约束模型对过拟合和欠拟合行为。该方法在WMT16英德翻译任务上取得了1.80 SacreBLEU的提升。
　　Modeling Dual Read/Write Paths for Simultaneous Machine Translation（Shaolei Zhang, Yang Feng）
　　ACL, long paper
　　同步机器翻译在阅读源语句时输出翻译，因此需要模型在翻译过程中确定是等待下一个源词（READ）还是生成目标词（WRITE），这些动作构成了读/写路径。由于缺乏明确的约束，读/写路径一直是同步机器翻译性能的瓶颈。在本文中，我们开发了对偶路径同传（Dual Paths SiMT）来约束读/写路径，从而实现更好的性能。由于两个翻译方向上的读/写路径之间的对偶形式，我们明确地利用它们之间的对偶约束来相互约束。具体来说，‘Dual Paths’由源到目标（source-to-target）模型和目标到源（target-to-source）模型组成，它们具有自己的读/写路径。两个模型在对偶约束下联合优化了各自的读/写路径。在 En-Vi和De-En上的实验表明，我们的方法在两个方向上都提高了同步机器翻译性能，并且优于强基线。
　　Reducing Position Bias in Simultaneous Machine Translation with Length-Aware Framework（Shaolei Zhang, Yang Feng）
　　ACL, long paper
　　同步机器翻译 (SiMT) 在接收流式源输入时开始翻译，因此在翻译过程中源语句总是不完整的。与使用传统 seq-to-seq 架构的整句翻译不同，同步机器翻译经常采用 prefix-to-prefix 架构，强制每个目标词只与部分源前缀对齐，以适应流输入中不完整的源。然而，因为总是出现在更多的前缀中，在前面位置的源词往往被虚幻地认为更重要。这会导致位置偏差，使得模型在测试中往往更加关注前面的源位置。在本文中，我们首先分析了同步机器翻译中的位置偏差现象（position bias），并开发了一个长度感知框架，通过弥补同步机器翻译和整句翻译之间的结构差距来减少位置偏差。具体来说，给定流输入，我们首先预测全句长度，然后用位置编码填充未来的源位置，从而将流输入变成伪全句。所提出的框架可以集成到大多数现有的方法中，以进一步提高性能。对两种具有代表性的同步机器翻译方法的实验表明，我们的方法成功地减少了位置偏差以实现更好的性能。
　　Gaussian Multi-head Attention for Simultaneous Machine Translation（Shaolei Zhang, Yang Feng）
　　Findings of ACL, long paper
　　同步机器翻译 (SiMT) 在接收流式源输入的同时输出翻译，因此需要一个策略来确定从哪里开始翻译。目标词和源词之间的对齐通常揭示了对每个目标词的信息量最大的源词，因此桥接了翻译质量和延迟，但不幸的是，现有的方法没有明确地对对齐进行建模以建模这种关系。在本文中，我们提出了高斯多头注意力（Gaussian Multihead Attention， GMA），通过以统一的方式对对齐和平移进行建模来开发新的同步机器翻译策略。对于读/写策略，GMA 对每个目标词的对齐源位置进行建模，并相应地等待至其对齐位置开始翻译。为了将对齐学习整合到翻译模型中，引入了以预测对齐位置为中心的高斯分布作为对齐相关的先验，它与翻译相关的软注意力合作确定最终的注意力。在En-Vi 和De-En任务的实验表明，我们的方法在翻译和延迟之间的权衡上优于强基线。
　　Neural Machine Translation with Phrase-Level Universal Visual Representations (Qingkai Fang, Yang Feng)
　　ACL, long paper
　　多模态机器翻译旨在借助图像信息辅助机器翻译，近年来受到广泛关注。然而，已有的大多数方法需要成对的句子和图片作为输入，这为多模态机器翻译的应用带来了较强的约束。为了打破这一约束，部分工作提出了基于检索的多模态机器翻译方法，即对于输入句子，从外部图片库中检索若干图片作为辅助。然而，我们发现句子级检索存在稀疏性，导致检索到的图片与输入句子相关性较差。为此，我们提出了短语级图像检索，为输入句子中的每个短语检索若干图像区域。此外，考虑到图片中包含的信息较为冗杂（如颜色、纹理、背景等），我们引入了一个条件变分自编码器模型来显式建模语义相关的图像特征。实验结果表明我们的方法在Multi30K En-De、En-Fr上均取得了显著的提升。
　　STMM: Self-learning with Speech-text Manifold Mixup for Speech Translation (Qingkai Fang, Rong Ye, Lei Li, Yang Feng, Mingxuan Wang)
　　ACL, long paper
　　端到端语音翻译的目标是利用一个模型完成从源语言语音到目标语言文本的翻译。由于语音翻译存在数据稀缺、任务复杂的挑战，以往工作通常会利用预训练、知识蒸馏等技术，借助额外的大规模文本翻译数据来辅助训练。然而，我们认为上述方法仍然没有充分利用已有的文本翻译数据，因为他们忽视了语音和文本间的模态鸿沟，即不同模态数据在连续空间中的表示存在较大差异。为了克服该问题，我们提出了一种基于Mixup的方法，对语音和文本序列进行单词级混合，从而得到跨模态的序列。在此基础上，我们引入了一个自我学习框架，将语音序列和跨模态序列一起输入模型，并使用JS散度拉近二者的输出。实验结果表明我们的方法在MuST-C数据集的8个语向上均取得了显著的提升，分析结果表明我们的方法能够有效减少跨模态表示差异。
　　

24

2021-12

NLP组的Tutorial提案被EMNLP 2022接收

2021年12月，课题组题为《Non-Autoregressive Models for Fast Sequence Generation》的tutorial提案被EMNLP 2022接收。该tutorial提案预设时长3小时，作者分别是冯洋、邵晨泽。EMNLP全称是Empirical Methods in Natural Language Processing，是自然语言处理领域国际顶级会议之一。EMNLP自2014年开设tutorial，每年接收6-8个tutorial，主要由在不同领域进行前沿研究的学者讲授，介绍自然语言处理方法在不同领域的最新进展。2021年12月，课题组题为《Non-Autoregressive Models for Fast Sequence Generation》的tutorial提案被EMNLP 2022接收。该tutorial提案预设时长3小时，作者分别是冯洋、邵晨泽。EMNLP全称是Empirical Methods in Natural Language Processing，是自然语言处理领域国际顶级会议之一。EMNLP自2014年开设tutorial，每年接收6-8个tutorial，主要由在不同领域进行前沿研究的学者讲授，介绍自然语言处理方法在不同领域的最新进展。本tutorial提案主要介绍了非自回归模型的最新研究进展。非自回归模型是指并行解码生成整个序列的模型，它可以显著地加快序列生成的速度，已经在机器翻译、语音识别、语音合成等领域引起了广泛的关注。在tutorial提案中，全面地阐述了非自回归模型在序列生成中面临的多峰性挑战和目前的主流解决方案，例如知识蒸馏、建模隐变量、改进训练目标、迭代式模型等，并详细介绍了非自回归模型在多种序列生成任务上的进展和它应用在不同任务时的共性和差异。

27

2021-08

NLP组3篇论文被EMNLP 2021接收

课题组今年有3篇论文被EMNLP 2021接收，其中1篇论文被EMNLP主会录用，2篇被findings of EMNLP录用。EMNLP全称是Empirical Methods in Natural Language Processing，是自然语言处理领域国际顶级会议之一；Findings of EMNLP是EMNLP 2020引入的在线附属出版物。
　　课题组今年有3篇论文被EMNLP 2021接收，其中1篇论文被EMNLP主会录用，2篇被findings of EMNLP录用。EMNLP全称是Empirical Methods in Natural Language Processing，是自然语言处理领域国际顶级会议之一；Findings of EMNLP是EMNLP 2020引入的在线附属出版物。
　　Universal Simultaneous Machine Translation with Mixture-of-Experts Wait-k Policy (Shaolei Zhang, Yang Feng)
　　Main Conference, Long Paper
　　同步机器翻译 (Simultaneous Machine Translation, SiMT) 在阅读整个源句子之前开始翻译，因此它的性能由翻译质量和延迟来评估。同步机器翻译在不同的场景下有不同的延时需求，为了满足不同翻译质量和延迟的要求，以前的方法通常需要训练多个不同的SiMT模型，导致计算成本很高。在本文中，我们提出了一种基于多专家Wait-k 策略（Mixture-of-Experts Wait-k policy）的通用 SiMT 模型，以动态地引入不同的训练延迟。具体来说，multi-head attention中的多个注意力头被视为一系列wait-k专家，并被分配不同的训练延迟。对于不同的测试延迟和输入的源端句子，模型动态地调整每个专家的权重以产生正确的翻译。在三个数据集上的实验表明，我们的方法可以在不同延迟下优于所有强基线，包括最先进的自适应策略。
　　Modeling Concentrated Cross-Attention for Neural Machine Translation with Gaussian Mixture Model (Shaolei Zhang, Yang Feng)
　　Findings of EMNLP, Long Paper
　　交叉注意力（cross-attention）是神经机器翻译的重要组成部分，在以前的方法中总是通过点积注意力来实现的。然而，点积注意力只考虑词之间的成对相关性，导致其在处理长句时容易出现分散和忽略源相邻关系等问题。受语言学的启发，我们认为上述问题是由于基于点积注意力的计算方式忽略了一种称为集中注意力（concentrated attention）的交叉注意力。这种集中的交叉注意力首先集中在几个中心词上，然后在它们周围传播扩散。在这项工作中，我们应用高斯混合模型（Gaussian Mixture Model，GMM）来建模交叉注意力中的集中注意力。我们在三个数据集上进行的实验和分析表明，所提出的方法优于基线，并且在对齐质量、N-gram 准确性和长句翻译方面都有显着提高。
　　Mixup Decoding for Diverse Machine Translation (Jicheng Li,Pengzhi Gao,Xuanfu Wu,Yang Feng,Zhongjun He,Hua Wu, Haifeng Wang)
　　Findings of EMNLP, Short Paper
　　本文提出了一个基于Mixup的翻译多样性增强方法，该方法在语义空间中对源端句子进行混合采样以获取不同的源端输入，进而生成不同的目标端译文。相比于已有的翻译多样性方法，我们所提出的方法在生成多样性更强的译文的同时，无需对模型结构进行修改，因而不会带来额外的训练开销。