学术动态---- 中科院计算技术研究所--自然语言处理研究组网站

2023年10月，自然语言处理团队有6篇论文被EMNLP 2023录用，其中2篇主会论文， 4篇Findings论文。2023年10月，自然语言处理团队有6篇论文被EMNLP 2023录用，其中2篇主会论文，4篇Findings论文。EMNLP的全称是Conference on Empirical Methods in Natural Language Processing，由国际计算语言学会ACL旗下SIGDAT组织，每年举办一次，为自然语言处理领域最具影响力的国际会议之一。EMNLP 2023将于2023年12月6日-12月10日在新加坡举行。被录用论文简介如下：- Non-autoregressive Streaming Transformer for Simultaneous Translation (Zhengrui Ma, Shaolei Zhang, Shoutao Guo, Chenze Shao, Min Zhang, Yang Feng).- Accepted by Main Conference.简介：同步机器翻译（SiMT）模型需要在等待延迟和翻译质量之间寻找合适的平衡。然而，如果在训练阶段要求模型以较低的延迟预测参考译文，往往会导致在测试阶段模型具有激进的预测倾向。我们将这个问题归因于大多数现有SiMT模型所基于的自回归架构。基于此，我们提出了非自回归流式Transformer（Non-Autoregressive Streaming Transformer, NAST）。NAST由一个单向编码器和一个具有块内并行性的非自回归解码器构成。NAST通过生成空白标记或重复标记以灵活调整其读写策略，并以基于对齐的延迟损失和基于n元组匹配的非单调对齐损失进行训练。在各种SiMT基准测试上的实验表明，NAST优于已有的强自回归SiMT基线模型。- Bridging the Gap between Synthetic and Authentic Images for Multimodal Machine Translation (Wenyu Guo, Qingkai Fang, Dong Yu, Yang Feng).- Accepted by Main Conference.简介：多模态机器翻译（MMT）同时将源语句和相关图像作为翻译的输入。然而，在大多数情况下，源语句配对的图像很难获取，因此最近的研究提出了利用强大的文本到图像生成模型提供图像输入的建议。然而，这些模型生成的图像往往与真实图像的分布存在差异。因此，在训练过程中使用真实图像，而在解码过程中使用生成的图像可能会引入分布差异，从而降低解码性能。为了解决这个问题，在本文中，我们将生成图像和真实图像分别输入到MMT模型中。随后，我们通过缩小Transformer编码器的输入图像表示与Transformer解码器的输出分布之间的差距来最小化生成图像与真实图像之间的差异。因此，我们减轻了在解码过程中使用生成图像引入的分布差异，使解码不再依赖于真实图像。实验结果表明，我们的方法在Multi30K En-De和En-Fr数据集上实现了最先进的性能，同时在解码过程中无需使用真实图像。- Scaling Law for Document-Level Neural Machine Translation (Zhang Zhuocheng, Shuhao Gu, Min zhang, Yang Feng).- Accepted by Findings of EMNLP.简介：缩放定律在推动大模型的发展中发挥了重要作用。为了促进文档翻译的发展，我们系统地研究了该领域的缩放规律。本文深入分析了模型规模、数据规模和序列长度这三个因素对翻译质量的影响。我们的研究结果表明，当模型规模有限时，增加序列长度能有效提高模型性能。但是，序列长度不能无限延长，它必须与模型规模和语料库容量相适应。进一步的研究表明，提供足够的上下文可以有效提高文档靠前部分的翻译质量。然而，曝光偏差仍然是阻碍进一步提高文档后半部分翻译质量的主要因素。- Addressing the Length Bias Challenge in Document-Level Neural Machine Translation (Zhang Zhuocheng, Shuhao Gu, Min zhang, Yang Feng).- Accepted by Findings of EMNLP.简介：文档级神经机器翻译（DNMT）通过增加源端文本和目标端文本的最大长度来纳入上下文信息，从而进一步提高翻译质量。然而，这种方法也引入了长度偏差问题，即当解码的文本比训练时的最大文本长度短得多或长得多时，模型的翻译质量会明显下降，这就是长度偏差问题。为了防止模型在篇章级训练中忽视较短的文本，我们对长度进行采样（Dynamic Length Sampling, DLS），并以此切分训练数据，以确保不同文本长度的分布更加均匀。为了保证训练的稳定性，我们在训练过程中逐步增加采样的最大文本长度。此外，我们还引入了长度归一化的注意力机制（Length Aware Attention, LAA），以帮助模型关注目标信息，从而缓解处理长句时注意力分散的问题。此外，在解码阶段，我们提出了一种滑动解码策略（Slide Decoding, SD），限制目标端文本长度不超过训练过程中的最大长度。实验结果表明，我们的方法可以在多个开放数据集上取得最好的结果，进一步的分析表明，我们的方法可以显著缓解长度偏差问题。 - Enhancing Neural Machine Translation with Semantic Units (Langlin Huang, Shuhao Gu, Zhuocheng Zhang, Yang Feng*).- Accepted by Findings of EMNLP.简介：传统的神经机器翻译通常把子词（subword）和词（word）作为模型输入和理解的基本单元。但实际上，能够表达一个完整语义的基本单元往往是完整的词语或者由多个词语组成的短语，在本文中我们把它们统称为语义单元（semantic unit）。为了解决该（尺度不一致）问题，我们提出一种方法，先恢复句子中所有语义单元的完整语义，然后利用它们提供一种理解源端句子的全新视角。具体地，我们先提出了一种抽取短语的方法WPE来识别语义单元的边界位置。接下来，我们设计了一个基于注意力的语义融合层（ASF），把多个词语向量融合成单一向量，即语义单元表示。最后，我们把语义级别的句子表示和token级别的句子表示拼接起来作为编码器的输入。实验结果证明我们提出的方法有效地建模和利用了语义级别的信息，并超过了强基线模型。- Simultaneous Machine Translation with Tailored Reference (Shoutao Guo, Shaolei Zhang, Yang Feng).- Accepted by Findings of EMNLP.简介：同声传译（SiMT）是在读入整个源句的同时生成翻译的技术。然而，现有的SiMT模型通常使用相同的reference进行训练不同延时下的模型，忽视了不同延迟下可用的源端信息差异。这将导致，在低延迟下使用ground-truth训练模型会引入强制性的预测，而在高延迟下使用与源词顺序一致的reference会导致性能下降。因此，在训练SiMT模型时使用避免强制性预测但又能保持高质量的reference至关重要。在本文中，我们提出了一种新的方法，通过改写ground-truth来为在不同延迟下训练的SiMT模型提供定制的reference。具体而言，我们引入了利用强化学习训练的定制器，用于修改ground-truth成为定制的reference。SiMT模型使用定制的reference进行训练，并与定制器一起进行联合优化，以增强性能。重要的是，我们的方法适用于当前各种SiMT方法。三个翻译任务上的实验证明，我们的方法在固定和自适应策略下均取得了最先进的性能。

30

2023-09

NLP组4篇论文被NeurIPS 2023录用

2023年9月，课题组有4篇论文被NeurIPS 2023录用。2023年9月，课题组有4篇论文被NeurIPS 2023录用。NeurIPS 2023的全称是Thirty-seventh Conference on Neural Information Processing Systems，是人工智能领域的顶级会议之一。在 Google Scholar 的学术会议 / 期刊排名中，NeurIPS目前排名第 10 位。NeurIPS 2023将于2023年12月10日-12月16日在美国新奥尔良举行。被录用论文简介如下： - Unified Segment-to-Segment Framework for Simultaneous Sequence Generation (Shaolei Zhang, Yang Feng).- Accepted by NeurIPS 2023.简介：实时（流式）序列生成是实时场景的关键任务，其要求模型在接收源序列的同时生成目标序列。实现低延迟下高质量生成的关键在于确定生成的最佳时刻，这往往通过学习源序列和目标序列之间的映射来完成的。现有方法通常依赖于针对不同序列类型的启发式方法，限制了模型自适应学习源-目标映射的能力，并阻碍了对各种实时任务中多任务学习的探索。在本文中，我们提出了一种用于实时序列生成的统一片段到片段框架（Segment-to-Segment Framework，简称Seg2Seg）。在实时生成的过程中，模型在等待源段和生成目标段之间交替，这使片段成为源和目标之间的天然桥梁。因此，Seg2Seg 引入了一个潜在片段作为源到目标之间的枢轴，并通过期望训练探索所有潜在的源-目标映射，从而学习最佳的生成时刻。对多个实时生成任务（包括流式语音识别、实时机器翻译和实时语音翻译）的实验表明，Seg2Seg 实现了最先进的性能，并在各种实时生成任务中表现出更好的通用性。 - DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation（Qingkai Fang, Yan Zhou, Yang Feng).- Accepted by NeurIPS 2023.简介：语音到语音翻译（Speech-to-Speech Translation, S2ST）是指将源语言的语音信号翻译成目标语言的语音信号，能够打破不同语言人群之间的交流阻碍，近年来吸引了众多研究者们的关注。然而，由于翻译过程中存在的语言多样性，以及语音信号本身存在的声学多样性，目标语音数据服从复杂的多峰分布，为模型学习带来了较大的挑战。因此，现有的S2ST模型通常存在解码速度慢或翻译质量差的问题。为此，该工作提出了基于有向无环图的语音到语音翻译模型DASpeech。DASpeech采用了两步解码的模型结构，在模型结构上结合了DA-Transformer和FastSpeech 2，首先通过有向无环图建模多种可能的译文，然后基于译文对应路径的隐状态合成目标语音。为了在训练时同时考虑多条可能的路径，我们提出了期望路径训练算法，通过动态规划高效计算每个目标单词对应的期望隐状态，实现高效的端到端模型训练。在CVSS数据集上的实验结果显示，DASpeech在翻译质量和解码速度的权衡上大幅超越现有模型。与已有的自回归模型相比，在翻译质量持平的情况下，解码速度达到最高18倍以上的加速比。与已有的非自回归模型相比，翻译质量和解码速度都有明显提升，且不再依赖于知识蒸馏和迭代解码。此外，DASpeech还展现出了在翻译过程中保留说话人音色的能力。 - Beyond MLE: Convex Loss for Text Generation（Chenze Shao*, Zhengrui Ma*, Min Zhang, Yang Feng (*: 共同一作)).- Accepted by NeurIPS 2023.简介：极大似然估计（Maximum likelihood estimation）是一种用于估计所观察数据概率分布参数的统计方法。在文本生成任务中，通常使用极大似然估计方法训练语言模型，并使用完成训练的模型生成新的文本。然而，对于机器翻译这类封闭（closed-ended）文本生成任务，极大似然估计并不总是必要且最优的。在这些任务中，模型的目标是生成最合适的回复，并不需要使用极大似然来估计整个数据分布。为此，我们提出了一类基于凸函数的新型训练目标函数，它使文本生成模型能够专注于生成高概率的样本，而无需估计整个数据分布。我们研究了将凸函数应用于损失函数时模型最优预测分布的理论特性，证明了凸函数可以使最优分布更加尖锐，从而使模型更好地捕获高概率的样本。在各种文本生成任务和模型上的实验证明了我们方法的有效性。具体而言，它弥合了自回归模型在贪婪搜索和束搜索两种解码模式下的差异，并大幅提高了非自回归模型的生成能力。 - Non-autoregressive Machine Translation with Probabilistic Context-free Grammar（Shangtong Gui, Chenze Shao, Zhengrui Ma, Xishan Zhang, Yunji Chen, Yang Feng）.- Accepted by NeurIPS 2023.简介：非自回归机器翻译（NAT）显著加速了神经机器翻译的推理速度。然而，由于目标标记之间的条件独立假设，传统的NAT模型在表达能力和性能方面相较于自回归（AT）模型存在局限性和性能下降。为了解决这些问题，我们提出了一种名为PCFG-NAT的新方法，该方法利用特殊设计的概率上下文无关文法（PCFG）来增强NAT模型捕获输出标记之间复杂依赖关系的能力。在主要机器翻译基准测试上的实验结果表明，PCFG-NAT进一步缩小了NAT和AT模型之间的翻译质量差距。此外，PCFG-NAT有助于更深入地理解生成的句子，提升了神经机器翻译可解释性。

21

2023-06

计算所自然语言处理团队发表介绍百聆通用大模型论文并开放内测

2023年6月21日，中国科学院计算技术研究所自然语言处理团队关于通用大语言模型的研究工作在arXiv上发表，该工作旨在借助交互式翻译任务可同时完成语言间对齐以及与人类意图对齐的特性，使得大语言模型在对齐人类意图的同时，完成生成能力从英语到其他语言的传递。研究团队基于该研究工作开发了“百聆（BayLing）”大语言模型，并开源了百聆代码以及7B和13B的模型权重，同时在中科南京信息高铁研究院的支撑下完成了“百聆”的线上部署，目前以邀请的方式开放内测，欢迎大家试用。该研究工作简要介绍如下：- 论文题目：Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models- 作者列表：张绍磊，房庆凯，张倬诚，马铮睿，周䶮，黄浪林，卜梦煜，桂尚彤，陈云霁，陈熙霖，冯洋*大语言模型在语言理解和生成方面展现了出色的能力，这得益于基座大模型提供了强大的语言生成能力，同时指令微调增强了与人类偏好的对齐。然而，现有的大语言模型基本专注于英语（或者中文），在非英语语言上的表现较差。针对这一问题，在传统的研究范式下，研究者需要构建庞大的非英语语料库用于基座模型的训练来增强该语言的生成能力，同时需要构建该语言的指令集进行指令微调用于与人类意图对齐。考虑到收集语料资源和人工构建指令是昂贵且繁重的，研究团队探索了在指令微调阶段将英语与其他语言对齐的方法，提出了以交互式翻译为核心的指令微调训练方法，实现了大模型在学习遵循指令的同时，将语言生成和指令遵循的能力从英语传递到其他语言。研究团队通过设计的交互翻译指令自动构建方法，向模型提供涵盖中、英、德、法四门语言的交互式翻译指令和约束条件，要求模型在理解所有先前指令的基础上提供满足用户需求的生成内容。基于百聆-7B和百聆-13B的相关实验结果表明，借助于翻译任务的语义对齐特性，模型能够实现生成能力在不同语言之间的迁移，并在交互式的过程中学习与人类意图进行对齐。具体来说，在单轮翻译任务上，百聆达到了GPT-4 95%的性能，在交互式翻译上，百聆达到了GPT-3.5-turbo 96%的性能。研究团队还构建了双语多轮通用测试集BayLing-80并开源，在BayLing-80测试集上百聆达到了GPT-3.5-turbo 89%的性能。在高考任务和English SAT任务上，百聆在众多大模型中位列第2，仅次于GPT-3.5-turbo。内测入口: http://nlp.ict.ac.cn/bayling/demo项目首页: https://nlp.ict.ac.cn/bayling论文链接: https://arxiv.org/abs/2306.10968Github页面: https://github.com/ictnlp/BayLingHugging Face页面： 7B: https://huggingface.co/ICTNLP/bayling-7b-diff 13B: https://huggingface.co/ICTNLP/bayling-13b-diff 样例展示通过交互改善翻译结果，用户可通过按钮进行反馈：诗歌翻译：多轮通用任务：百聆仍在持续优化中，如果大家有任何建议，欢迎联系bayling@ict.ac.cn。感谢大家的支持！

03

2023-06

NLP组5篇论文被ACL 2023录用

2023年5月，课题组有5篇论文被ACL 2023录用，其中4篇论文被ACL主会录用， 1篇被Findings of ACL录用。2023年5月，课题组有5篇论文被ACL 2023录用，其中4篇论文被ACL主会录用，1篇被Findings of ACL录用。 ACL的全称是The Association for Computational Linguistics，是国际计算语言学界影响力最大的学术组织。ACL年度会议也是计算语言学领域的最重要的国际会议，是CCF推荐的计算语言学方面唯一的A类会议。ACL主会论文收录在Proceedings of ACL, Findings of ACL是从ACL 2021开始引入的在线附属出版物。ACL 2023将于2023年7月9日-7月14日在加拿大多伦多举行。被录用论文简介如下： - Understanding and Bridging the Modality Gap for Speech Translation (Qingkai Fang, Yang Feng). - Accepted by ACL 2023 Main Conference.简介：语音翻译将输入语音直接翻译为另外一种语言的文字，有效减小了不同语言人群之间的沟通障碍。由于语音翻译语料稀缺，源语音到目标文本的映射学习难度较大，研究者们通常引入文本翻译任务来辅助语音翻译的训练。然而，由于语音与文本之间存在模态鸿沟，语音翻译的性能通常落后于文本翻译。在本文中，我们首先基于解码器的模态间表示差异来衡量模态鸿沟的显著程度，我们发现（1）机器翻译中的曝光偏差问题导致解码阶段模态鸿沟随时间步逐渐增大；（2）模态鸿沟存在长尾问题，即存在少数情况下模态鸿沟非常大。为了解决这两个问题，我们提出了基于计划采样的跨模态正则化方法（Cross-modal Regularization with Scheduled Sampling, CRESS），在训练时通过计划采样模拟解码的情形，并在此基础上引入跨模态正则项损失减小语音翻译与文本翻译的预测差异，从而使两个任务在解码阶段的预测更加一致。实验结果表明，该方法在语音翻译基准数据集MuST-C的所有8个语向上均取得了显著提升，达到了目前最先进的性能。 - Back Translation for Speech-to-text Translation Without Transcripts（Qingkai Fang, Yang Feng) . - Accepted by ACL 2023 Main Conference.简介：语音翻译通常面临数据稀缺的挑战，已有的方法大多在训练时利用额外的语音识别数据或机器翻译数据来增强语音翻译模型。然而，据统计，世界上存在约3000种语言没有对应的转写文本。对于从这些语言到其他语言的语音翻译任务，没有语音识别或机器翻译的数据可以利用。在本文中，我们旨在利用目标语言的大规模单语语料来增强源语言没有转写文本情况下的语音翻译。受到机器翻译中反向翻译（Back Translation）方法的启发，我们希望为语音翻译设计一种反向翻译方法，能够在不依赖源语言转写文本的情况下，从目标语言的单语语料合成语音翻译的伪平行语料。由于目标文本到源语音的生成是从短序列到长序列的生成，且二者之间存在一对多的映射，使该生成过程极具挑战性。为此，我们引入离散单元作为中间表示，首先通过一个序列到序列模型将目标文本翻译到源语音对应的离散单元序列，再通过一个声码器将其转化为对应的声波。在MuST-C数据集三个语向上的实验表明，该方法能够从目标语言单语数据合成高质量的伪数据，显著提升基线模型的性能。 - Learning Optimal Policy for Simultaneous Machine Translationvia Binary Search（Shoutao Guo, Shaolei Zhang, Yang Feng）.- Accepted by ACL 2023 Main Conference.简介：同步机器翻译(Simultaneous Machine Translation，SiMT)在输入整个源端句子之前便开始输出生成的翻译，因而需要一个精确的策略决定模型何时输出翻译。然而，现有的平行训练语料中缺少精准策略作为策略学习的显式监督信号，这往往导致缺少源端信息或是引入额外延时。在本文中，我们提出了基于二分搜索的SiMT方法(BS-SiMT)，它基于二分搜索在线构建最优翻译策略，同时据此训练翻译模型。随后，SiMT模型将以显式监督的方式学习最优策略，并在推理时依据学习到的策略输出翻译。多个翻译任务的实验表明我们的方法可以在所有延时下达到较好效果，策略更加准确。 - CMOT: Cross-modal Mixup via Optimal Transport for Speech Translation（Yan Zhou, Qingkai Fang, Yang Feng）.- Accepted by ACL 2023 Main Conference.简介：端到端语音翻译是将源语言的语音信号翻译成目标语言的文本的任务。端到端语音翻译作为一项跨模态任务，在数据有限的情况下很难进行训练。现有的方法通常试图从机器翻译任务中进行知识迁移，但它们的性能受语音和文本间模态鸿沟的限制。在本文中，我们提出了基于最优传输的跨模态混合（CMOT）方法，以克服模态鸿沟。我们通过最优传输找到语音和文本序列之间的对齐，然后使用该对齐在标识符级别上混合不同模态的序列。在 MuST-C 语音翻译数据集上的实验表明，CMOT 在8个翻译方向上达到了30.0的平均 BLEU 值，优于先前的方法。进一步的分析表明，CMOT 可以自适应地找到模态之间的对齐关系，这有助于缓解语音和文本之间的模态鸿沟。 - End-to-End Simultaneous Speech Translation with Differentiable Segmentation（Shaolei Zhang, Yang Feng）. - Accepted by Findings of ACL 2023.简介：端到端实时语音翻译（ST）在接收流式语音输入的同时输出翻译，因此需要对语音输入进行分割，然后根据当前接收到的语音进行翻译。在那些不利时刻进行分段会破坏声学完整性并进一步降低翻译模型的性能。因此，学习在那些有利于翻译模型产生高质量翻译的时刻对语音输入进行分割是ST的关键。现有的ST方法，无论是使用固定长度的分割还是外部分割模型，总是将分割与底层翻译模型分开，其中的鸿沟难以保证分割结果对翻译有利。在本文中，我们为ST提出了可微分割 (Differentiable Segmentation, DiSeg)。DiSeg通过期望训练直接从底层翻译模型中学习语音分割，并且能同时处理离线和实时场景下的语音翻译。实验表明，DiSeg取得了最先进的实时语音翻译性能，在滞后2s的延时下达到了离线翻译性能。

06

2023-03

癸卯贺岁新年新喜：NLP课题组2篇论文被ICLR 2023接收

癸卯贺岁新年新喜：2023年1月，课题组2篇论文被ICLR 2023接收。2023年1月，课题组2篇论文被ICLR 2023接收。ICLR 2023的全称是the 11th International Conference on Learning Representations, 由位列深度学习三大巨头的 Yoshua Bengio 和 Yann LeCun 牵头创办, 2013 年开始每年举办一次，是深度学习领域的顶级会议之一。在 Google Scholar 的学术会议 / 期刊排名中，ICLR 目前排名第 9 位。ICLR 2023将于2023年5月1日-5月5日在卢旺达首都基加利举办。被录用论文的简要介绍如下：1. 论文题目：Hidden Markov Transformer for Simultaneous Machine Translation论文作者：张绍磊，冯洋论文概述: 同步机器翻译（Simultaneous Machine Translation，SiMT）在接收源序列的同时输出目标序列，因此学习何时开始翻译每个目标词是同步机器翻译的核心挑战。然而，在许多可能的开始翻译时刻中学习最佳时刻并非易事，因为开始翻译的时刻总是隐藏在模型内部，我们只能用观察到的目标序列来监督SiMT模型。在本文中，我们提出了隐马尔可夫Transformer (Hidden Markov Transformer, HMT)，它将开始翻译的时刻视为隐藏事件，将目标序列视为相应的观察事件，从而将两者组织为隐马尔可夫模型。 HMT对多个可能的开始翻译时刻进行显式建模，用作候选隐藏事件，然后选择一个生成目标词。在训练期间，通过在多个开始翻译时刻上最大化目标序列的边际似然，HMT学会在可以更准确地生成目标标记的时刻开始翻译。多个SiMT 基准上的的实验表明，HMT优于强大的基线并实现了最先进的性能。2. 论文题目：Fuzzy Alignments in Directed Acyclic Graph for Non-autoregressive Machine Translation论文作者：马铮睿, 邵晨泽, 桂尚彤, 张民，冯洋论文概述：非自回归机器翻译（Non-autoregressive Translation, NAT）显著降低了用户等待译文的延迟，但因为语言映射的多峰分布特性，往往性能较差。为此，一些研究者尝试将有向无环图（Directed Acyclic Graph, DAG）结构引入NAT系统，试图通过DAG建模输出字词之间的依赖来缓解多峰分布问题。这种系统一般通过极大似然估计的方式进行模型参数学习，以负对数似然（Negative Log Likelihood, NLL）作为损失函数。尽管上述方法取得了一定的成功，我们发现NLL隐式地要求了目标译文字词与DAG节点之间存在严格对齐关系，弱化了DAG学习多峰分布的能力。在本文中，我们考虑DAG中所有可能的路径与参考译文之间均存在某种模糊对齐关系。我们设计了一个模糊对齐指标以衡量图与译文的匹配程度，并以最大化该指标的方式进行参数学习。大量实验表明我们的方法显著地改善了NAT系统的翻译质量，在多个基于原始语料的NAT翻译任务上达到了最先进的性能。