NLP组6篇论文被EMNLP 2023录用

发布时间：2023-10-24

2023年10月，自然语言处理团队有6篇论文被EMNLP 2023录用，其中2篇主会论文，4篇Findings论文。EMNLP的全称是Conference on Empirical Methods in Natural Language Processing，由国际计算语言学会ACL旗下SIGDAT组织，每年举办一次，为自然语言处理领域最具影响力的国际会议之一。EMNLP 2023将于2023年12月6日-12月10日在新加坡举行。

被录用论文简介如下：

- Non-autoregressive Streaming Transformer for Simultaneous Translation (Zhengrui Ma, Shaolei Zhang, Shoutao Guo, Chenze Shao, Min Zhang, Yang Feng).

- Accepted by Main Conference.

简介：同步机器翻译（SiMT）模型需要在等待延迟和翻译质量之间寻找合适的平衡。然而，如果在训练阶段要求模型以较低的延迟预测参考译文，往往会导致在测试阶段模型具有激进的预测倾向。我们将这个问题归因于大多数现有SiMT模型所基于的自回归架构。基于此，我们提出了非自回归流式Transformer（Non-Autoregressive Streaming Transformer, NAST）。NAST由一个单向编码器和一个具有块内并行性的非自回归解码器构成。NAST通过生成空白标记或重复标记以灵活调整其读写策略，并以基于对齐的延迟损失和基于n元组匹配的非单调对齐损失进行训练。在各种SiMT基准测试上的实验表明，NAST优于已有的强自回归SiMT基线模型。

- Bridging the Gap between Synthetic and Authentic Images for Multimodal Machine Translation (Wenyu Guo, Qingkai Fang, Dong Yu, Yang Feng).

- Accepted by Main Conference.

简介：多模态机器翻译（MMT）同时将源语句和相关图像作为翻译的输入。然而，在大多数情况下，源语句配对的图像很难获取，因此最近的研究提出了利用强大的文本到图像生成模型提供图像输入的建议。然而，这些模型生成的图像往往与真实图像的分布存在差异。因此，在训练过程中使用真实图像，而在解码过程中使用生成的图像可能会引入分布差异，从而降低解码性能。为了解决这个问题，在本文中，我们将生成图像和真实图像分别输入到MMT模型中。随后，我们通过缩小Transformer编码器的输入图像表示与Transformer解码器的输出分布之间的差距来最小化生成图像与真实图像之间的差异。因此，我们减轻了在解码过程中使用生成图像引入的分布差异，使解码不再依赖于真实图像。实验结果表明，我们的方法在Multi30K En-De和En-Fr数据集上实现了最先进的性能，同时在解码过程中无需使用真实图像。

- Scaling Law for Document-Level Neural Machine Translation (Zhang Zhuocheng, Shuhao Gu, Min zhang, Yang Feng).

- Accepted by Findings of EMNLP.

简介：缩放定律在推动大模型的发展中发挥了重要作用。为了促进文档翻译的发展，我们系统地研究了该领域的缩放规律。本文深入分析了模型规模、数据规模和序列长度这三个因素对翻译质量的影响。我们的研究结果表明，当模型规模有限时，增加序列长度能有效提高模型性能。但是，序列长度不能无限延长，它必须与模型规模和语料库容量相适应。进一步的研究表明，提供足够的上下文可以有效提高文档靠前部分的翻译质量。然而，曝光偏差仍然是阻碍进一步提高文档后半部分翻译质量的主要因素。

- Addressing the Length Bias Challenge in Document-Level Neural Machine Translation (Zhang Zhuocheng, Shuhao Gu, Min zhang, Yang Feng).

- Accepted by Findings of EMNLP.

简介：文档级神经机器翻译（DNMT）通过增加源端文本和目标端文本的最大长度来纳入上下文信息，从而进一步提高翻译质量。然而，这种方法也引入了长度偏差问题，即当解码的文本比训练时的最大文本长度短得多或长得多时，模型的翻译质量会明显下降，这就是长度偏差问题。为了防止模型在篇章级训练中忽视较短的文本，我们对长度进行采样（Dynamic Length Sampling, DLS），并以此切分训练数据，以确保不同文本长度的分布更加均匀。为了保证训练的稳定性，我们在训练过程中逐步增加采样的最大文本长度。此外，我们还引入了长度归一化的注意力机制（Length Aware Attention, LAA），以帮助模型关注目标信息，从而缓解处理长句时注意力分散的问题。此外，在解码阶段，我们提出了一种滑动解码策略（Slide Decoding, SD），限制目标端文本长度不超过训练过程中的最大长度。实验结果表明，我们的方法可以在多个开放数据集上取得最好的结果，进一步的分析表明，我们的方法可以显著缓解长度偏差问题。

- Enhancing Neural Machine Translation with Semantic Units (Langlin Huang, Shuhao Gu, Zhuocheng Zhang, Yang Feng*).

- Accepted by Findings of EMNLP.

简介：传统的神经机器翻译通常把子词（subword）和词（word）作为模型输入和理解的基本单元。但实际上，能够表达一个完整语义的基本单元往往是完整的词语或者由多个词语组成的短语，在本文中我们把它们统称为语义单元（semantic unit）。为了解决该（尺度不一致）问题，我们提出一种方法，先恢复句子中所有语义单元的完整语义，然后利用它们提供一种理解源端句子的全新视角。具体地，我们先提出了一种抽取短语的方法WPE来识别语义单元的边界位置。接下来，我们设计了一个基于注意力的语义融合层（ASF），把多个词语向量融合成单一向量，即语义单元表示。最后，我们把语义级别的句子表示和token级别的句子表示拼接起来作为编码器的输入。实验结果证明我们提出的方法有效地建模和利用了语义级别的信息，并超过了强基线模型。

- Simultaneous Machine Translation with Tailored Reference (Shoutao Guo, Shaolei Zhang, Yang Feng).

- Accepted by Findings of EMNLP.

简介：同声传译（SiMT）是在读入整个源句的同时生成翻译的技术。然而，现有的SiMT模型通常使用相同的reference进行训练不同延时下的模型，忽视了不同延迟下可用的源端信息差异。这将导致，在低延迟下使用ground-truth训练模型会引入强制性的预测，而在高延迟下使用与源词顺序一致的reference会导致性能下降。因此，在训练SiMT模型时使用避免强制性预测但又能保持高质量的reference至关重要。在本文中，我们提出了一种新的方法，通过改写ground-truth来为在不同延迟下训练的SiMT模型提供定制的reference。具体而言，我们引入了利用强化学习训练的定制器，用于修改ground-truth成为定制的reference。SiMT模型使用定制的reference进行训练，并与定制器一起进行联合优化，以增强性能。重要的是，我们的方法适用于当前各种SiMT方法。三个翻译任务上的实验证明，我们的方法在固定和自适应策略下均取得了最先进的性能。

附件下载：

NLP课题组1篇论文被AAAI 2024接收

NLP组4篇论文被NeurIPS 2023录用