学术动态

NLP组4篇论文被NeurIPS 2023录用

发布时间:2023-09-30

2023年9月,课题组有4篇论文被NeurIPS 2023录用。NeurIPS 2023的全称是Thirty-seventh Conference on Neural Information Processing Systems,是人工智能领域的顶级会议之一。在 Google Scholar 的学术会议 / 期刊排名中,NeurIPS目前排名第 10 位。NeurIPS 2023将于2023年12月10日-12月16日在美国新奥尔良举行。

被录用论文简介如下:

- Unified Segment-to-Segment Framework for Simultaneous Sequence Generation (Shaolei Zhang, Yang Feng).

- Accepted by NeurIPS 2023.

简介:实时(流式)序列生成是实时场景的关键任务,其要求模型在接收源序列的同时生成目标序列。 实现低延迟下高质量生成的关键在于确定生成的最佳时刻,这往往通过学习源序列和目标序列之间的映射来完成的。 现有方法通常依赖于针对不同序列类型的启发式方法,限制了模型自适应学习源-目标映射的能力,并阻碍了对各种实时任务中多任务学习的探索。 在本文中,我们提出了一种用于实时序列生成的统一片段到片段框架(Segment-to-Segment Framework,简称Seg2Seg)。在实时生成的过程中,模型在等待源段和生成目标段之间交替,这使片段成为源和目标之间的天然桥梁。因此,Seg2Seg 引入了一个潜在片段作为源到目标之间的枢轴,并通过期望训练探索所有潜在的源-目标映射,从而学习最佳的生成时刻。对多个实时生成任务(包括流式语音识别、实时机器翻译和实时语音翻译)的实验表明,Seg2Seg 实现了最先进的性能,并在各种实时生成任务中表现出更好的通用性。


- DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation(Qingkai Fang, Yan Zhou, Yang Feng).

- Accepted by NeurIPS 2023.

简介:语音到语音翻译(Speech-to-Speech Translation, S2ST)是指将源语言的语音信号翻译成目标语言的语音信号,能够打破不同语言人群之间的交流阻碍,近年来吸引了众多研究者们的关注。然而,由于翻译过程中存在的语言多样性,以及语音信号本身存在的声学多样性,目标语音数据服从复杂的多峰分布,为模型学习带来了较大的挑战。因此,现有的S2ST模型通常存在解码速度慢或翻译质量差的问题。为此,该工作提出了基于有向无环图的语音到语音翻译模型DASpeechDASpeech采用了两步解码的模型结构,在模型结构上结合了DA-TransformerFastSpeech 2,首先通过有向无环图建模多种可能的译文,然后基于译文对应路径的隐状态合成目标语音。为了在训练时同时考虑多条可能的路径,我们提出了期望路径训练算法,通过动态规划高效计算每个目标单词对应的期望隐状态,实现高效的端到端模型训练。在CVSS数据集上的实验结果显示,DASpeech在翻译质量和解码速度的权衡上大幅超越现有模型。与已有的自回归模型相比,在翻译质量持平的情况下,解码速度达到最高18倍以上的加速比。与已有的非自回归模型相比,翻译质量和解码速度都有明显提升,且不再依赖于知识蒸馏和迭代解码。此外,DASpeech还展现出了在翻译过程中保留说话人音色的能力。


- Beyond MLE: Convex Loss for Text Generation(Chenze Shao*, Zhengrui Ma*, Min Zhang, Yang Feng (*: 共同一作)).

- Accepted by NeurIPS 2023.

简介:极大似然估计(Maximum likelihood estimation)是一种用于估计所观察数据概率分布参数的统计方法。在文本生成任务中,通常使用极大似然估计方法训练语言模型,并使用完成训练的模型生成新的文本。然而,对于机器翻译这类封闭(closed-ended)文本生成任务,极大似然估计并不总是必要且最优的。在这些任务中,模型的目标是生成最合适的回复,并不需要使用极大似然来估计整个数据分布。为此,我们提出了一类基于凸函数的新型训练目标函数,它使文本生成模型能够专注于生成高概率的样本,而无需估计整个数据分布。我们研究了将凸函数应用于损失函数时模型最优预测分布的理论特性,证明了凸函数可以使最优分布更加尖锐,从而使模型更好地捕获高概率的样本。在各种文本生成任务和模型上的实验证明了我们方法的有效性。具体而言,它弥合了自回归模型在贪婪搜索和束搜索两种解码模式下的差异,并大幅提高了非自回归模型的生成能力。


- Non-autoregressive Machine Translation with Probabilistic Context-free Grammar(Shangtong Gui, Chenze Shao, Zhengrui Ma, Xishan Zhang, Yunji Chen, Yang Feng).

- Accepted by NeurIPS 2023.

简介:非自回归机器翻译(NAT)显著加速了神经机器翻译的推理速度。然而,由于目标标记之间的条件独立假设,传统的NAT模型在表达能力和性能方面相较于自回归(AT)模型存在局限性和性能下降。为了解决这些问题,我们提出了一种名为PCFG-NAT的新方法,该方法利用特殊设计的概率上下文无关文法(PCFG)来增强NAT模型捕获输出标记之间复杂依赖关系的能力。在主要机器翻译基准测试上的实验结果表明,PCFG-NAT进一步缩小了NAT和AT模型之间的翻译质量差距。此外,PCFG-NAT有助于更深入地理解生成的句子,提升了神经机器翻译可解释性。




附件下载: