-
NLP组8篇论文被EMNLP 2022接收
2022年10月,课题组有8篇论文被EMNLP 2022录用,其中4篇主会论文, 4篇Findings论文。2022年10月,课题组有8篇论文被EMNLP 2022录用,其中4篇主会论文,4篇Findings论文。EMNLP的全称是Conference on Empirical Methods in Natural Language Processing,由国际计算语言学会ACL旗下SIGDAT组织,每年举办一次,为自然语言处理领域最具影响力的国际会议之一。 被录用论文简介如下: - Counterfactual Data Augmentation via Perspective Transition for Open-Domain Dialogues (Jiao Ou, Jinchao Zhang, Yang Feng, Jie Zhou).- Accepted by Main Conference.简介:构建开放领域的对话系统需要高质量的对话数据集,人类对话在给定的对话历史下可以有不同的回复,这些回复甚至是语义迥异的,因此,对话数据中只有包含针对同一对话历史的多样性回复才更符合人类对话的特点,然而收集这样的高质量对话数据是耗时耗力的。为了避免人工收集语料,我们提出了一种数据增强方法,通过反事实推理生成模型自动生成具有不同语义的高质量回复。具体来说,给定一个对话回复,反事实推理生成模型首先根据对话历史确定可行的回复角度,然后基于选择的角度来生成具体的回复。选择多个不同的回复角度,就可以得到许多语义迥异的回复。于是对话历史和生成的回复便构成了新的对话。实验结果表明,我们的数据增强方法可以为给定的对话历史增强具有不同语义的高质量回复,并且可以在多个下游任务上超过基线方法。- Continual Learning of Neural Machine Translation within Low Forgetting Risk Regions (Shuhao Gu, Bojie Hu, Yang Feng).- Accepted by Main Conference.简介:本文在无需访问以前的训练数据或引入模型分离的情况下进行大规模预训练神经机器翻译模型的连续学习。我们认为,广泛使用的基于正则化的方法在执行多目标学习时会产生辅助损失,因此会出现错误估计问题,并且不能始终在以前的任务和新任务之间取得良好的平衡。为了解决这个问题,我们提出了一种基于真实误差局部特征的两阶段训练方法。为了避免灾难性遗忘问题,我们首先搜索遗忘风险较低的区域,在该区域中,随着参数的更新,模型可以保持先前任务的性能。然后,我们可以仅使用新的训练数据在该区域内持续训练模型,以适应新任务。具体来说,我们提出了两种搜索低遗忘风险区域的方法,分别基于损失曲率和参数对模型输出的影响。我们对领域适应和更具挑战性的语言适应任务进行了实验,实验结果表明,与几个强基线系统相比,我们的方法可以取得显著的改进。- Information-Transport-based Policy for Simultaneous Translation (Shaolei Zhang, Yang Feng).- Accepted by Main Conference.简介:同声传译 (ST) 在接收源输入的同时输出翻译,因此需要一个同传策略来确定是翻译目标词还是等待下一个源词。同声传译的主要挑战是每个目标词只能基于当前接收到的源词进行翻译,接收到的源信息将直接影响翻译质量。自然地,当前目标词的翻译接收到多少源信息应该是同传策略决定是翻译还是等待的关键证据。在本文中,我们将翻译过程视为从源到目标的信息运输,因此提出了基于信息运输(information transport)的同声传译策略(ITST)。 ITST对每个源词到当前目标词运输的信息权重进行量化,然后根据目标词累积接收到的源信息决定是否开始翻译。多个同声传译基准上的实验表明,ITST 在所有延迟下都优于强基线并实现了最先进的性能。- Low-resource Neural Machine Translation with Cross-modal Alignment (Zhe Yang, Qingkai Fang, Yang Feng).- Accepted by Main Conference.简介:在低资源机器翻译任务中,现有的技术通常依赖于大规模的单语语料库,这对于一些低资源语言来说是不可行的。在本文中,我们通过引入视觉模态信息将几种低资源语言连接到一种特定的高资源语言上。具体来说,我们提出了一种跨模态对比学习方法来学习所有语言的公共空间。其中,我们进一步提出了粗糙的句子级对比学习方法和细粒度的词级别对比学习方法。实验结果和进一步的分析表明,我们的方法可以有效地学习跨模态和跨语言对齐,并且在zero-shot和few-shot场景下均取得了显著提升。 - Improving Zero-Shot Multilingual Translation with Universal Representations and Cross-Mappings (Shuhao Gu, Yang Feng).- Accepted by Findings of EMNLP.简介:在这个工作中,我们通过建模语言共享语义空间和统一映射关系来提升多语言翻译模型的零射翻译效果。基于最优运输理论,我们提出状态转移距离来减小不同语言语义空间的差距;基于一致性预测,我们帮助不同语言学习统一映射关系。实验表明该方法能大幅提高多语言零射翻译性能。- Viterbi Decoding of Directed Acyclic Transformer for Non-Autoregressive Machine Translation (Chenze Shao, Zhengrui Ma, Yang Feng).- Accepted by Findings of EMNLP.简介:非自回归机器翻译模型能进行并行解码,但也因此缺乏对序列依赖关系的建模能力。基于有向无环图的非自回归模型能在图中建模序列依赖,这使它无需知识蒸馏就能达到与自回归模型相似的性能,但也导致它需要在解码时进行顺序决策,无法保证生成全局最优的译文。对此,我们为有向无环图模型建立了基于维特比算法的解码框架,能够在任意译文长度限制下找出使翻译路径与译文概率最大的联合最优解,并且模型能通过长度惩罚项灵活控制译文长度。实验结果表明,我们的方法能稳定地提升模型的翻译性能,并且几乎不会对解码速度造成影响。- Wait-info Policy: Balancing Source and Target at Information Level for Simultaneous Machine Translation (Shaolei Zhang, Shoutao Guo, Yang Feng).- Accepted by Findings of EMNLP.简介:同步机器翻译(SiMT)在接收源输入的同时输出翻译,因此需要平衡接收到的源信息和翻译的目标信息,以在等待输入或输出翻译之间做出合理的决定。以前的方法总是在令牌级别平衡源和目标信息,要么直接等待固定数量的令牌,要么根据当前令牌调整等待。本文中,我们提出了一个wait-info policy来在信息级别平衡源和目标。我们首先量化每个令牌中包含的信息量,命名为 info。然后在同步机器翻译过程中,根据先前目标输出的总信息与接收到的源输入之间的比较结果做出等待或输出的决定。实验表明,我们的方法在所有延迟下都优于强基线,并通过提出的info在源和目标之间实现了更好的平衡。 - Turning Fixed to Adaptive: Integrating Post-Evaluation into Simultaneous Machine Translation (Shoutao Guo, Shaolei Zhang, Yang Feng).- Accepted by Findings of EMNLP.简介:同声传译在读入整个源端句子前便开始翻译,采用固定策略或是自适应策略来获取更优的延时和翻译质量间的权衡。之前的方法过度依赖于读写操作的决策模块,决定写操作后立即写出当前生成的单词,但这将不可避免地导致错误动作的发生。本文将合理性评估引入读写策略,其在执行动作前利用源端信息的改变来评估读写动作的合理性,据此再执行相应的动作,从而减少了不合理的操作,获得了更优的关于翻译质量和延时之间的权衡。
-
NLP课题组1篇论文被AAAI 2023接收
2022年11月,课题组1篇论文被AAAI 2023接收。2022年11月,课题组1篇论文被AAAI 2023接收。AAAI 2023的全称是Thirty-Seventh AAAI Conference on Artificial Intelligence,由人工智能促进协会AAAI组织,每年举办一次,为人工智能领域的顶级会议之一。AAAI 2023将于2023年2月7日-2月14日在美国华盛顿举行。被录用论文的简要介绍如下: - Rephrasing the Reference for Non-Autoregressive Machine Translation (Chenze Shao, Jinchao Zhang, Jie Zhou, Yang Feng)- AAAI Main Conference, long paper简介:非自回归神经机器翻译模型能够并行生成所有单词,显著提高了机器翻译模型的解码速度。限制这类模型性能的主要挑战为多峰性问题,即对同一原文可能存在多种正确的译文。因此,模型的输出方式不一定与参考译文一致,此时使用参考译文训练模型就不再准确。本文引入了一种改写器结构来解决这个问题,改写器直接根据模型的输出改写参考译文,用改写后的结果训练模型。我们希望改写器的输出应与非自回归模型的输出相匹配,但也不应偏离参考译文的语义,这些要求可以被量化为奖赏函数,因此我们可以通过强化学习方法优化改写器。在主流的WMT翻译数据集上和非自回归基线模型上,我们的方法均能稳定地提升非自回归模型的性能,最好的模型能达到与自回归模型相似的性能水平,并且仍保持着14.7倍于自回归模型的解码效率。
-
NLP组1篇论文被NeurIPS 2022接收
2022年9月,自然语言处理组1篇论文被NeurIPS 2022接收。NeurIPS 2022的全称是Thirty-sixth Conference on Neural Information Processing Systems,是人工智能领域的顶级会议之一。NeurIPS 2022将于2022年11月28日-12月9日在美国新奥尔良举行。
2022年9月,自然语言处理组1篇论文被NeurIPS 2022接收。NeurIPS 2022的全称是Thirty-sixth Conference on Neural Information Processing Systems,是人工智能领域的顶级会议之一。NeurIPS 2022将于2022年11月28日-12月9日在美国新奥尔良举行。
被录用论文的简要介绍如下:
Exploring Non-Monotonic Latent Alignments for Non-Autoregressive Machine Translation (Chenze Shao, Yang Feng)
非自回归翻译模型能够并行生成整句译文,在解码速度上具有非常大的优势,但由于交叉熵损失无法正确地评估模型的输出,非自回归模型的性能与自回归模型有很大差距。基于CTC损失的非自回归模型能够建模参考译文与模型输出的隐式对齐,因此大幅提升了非自回归模型的性能水平,目前已成为非自回归机器翻译的主流模型之一。然而,CTC损失最早是为语音识别任务设计的,只能建模参考译文与模型输出间的单调对齐,无法处理机器翻译中普遍存在的非单调对齐现象(如下图所示),这是非自回归机器翻译领域的一个open problem。在本文中,我们针对这个问题做了系统性的研究,将对齐空间扩展为非单调隐式对齐,并考虑所有与参考译文相关的对齐来计算损失。基于此,我们提出了基于二分图匹配和n元组匹配的两种解决方案,均能显著改善非自回归模型的翻译质量。在多个翻译数据集上,我们的最佳方法均达到了与自回归模型相当的性能,并保持着对自回归模型十倍以上的解码加速。
-
NLP组1篇论文被NAACL 2022接收
2022年4月,自然语言处理组1篇论文被NAACL 2022主会接收。NAACL 2022的全称是2022 Annual Conference of the North American Chapter of the Association for Computational Linguistics – Human Language Technologies (NAACL-HLT 2022),是 ACL 的北美分会,自然语言处理领域的顶级会议之一。NAACL 2022将于2022年7月10日-15日在美国西雅图召开。
2022年4月,自然语言处理组1篇论文被NAACL 2022主会接收。NAACL 2022的全称是2022 Annual Conference of the North American Chapter of the Association for Computational Linguistics – Human Language Technologies (NAACL-HLT 2022),是 ACL 的北美分会,自然语言处理领域的顶级会议之一。NAACL 2022将于2022年7月10日-15日在美国西雅图召开。
被录用论文的简要介绍如下:
One Reference Is Not Enough: Diverse Distillation with Reference Selection for Non-Autoregressive Translation (Chenze Shao, Xuanfu Wu, Yang Feng)
NAACL Main Conference, long paper
非自回归机器翻译模型存在多峰性问题:同一个源句可能有多个正确的译文,但模型只根据参考译文计算损失函数。对此,一种解决方案是序列级知识蒸馏,它通过将参考译文替换为自回归模型的输出,使目标端的译文更具确定性。然而,蒸馏后的数据集仍存在一定程度的多峰性,另外,向特定的自回归教师模型学习会限制模型能力的上限,从而约束了非自回归模型的潜力。在本文中,我们认为非自回归模型需要更多的参考译文来训练,并对此提出了多样蒸馏和译文选择的方法。具体地,我们首先通过不同随机种子训练多个教师模型,进行多样化的知识蒸馏,生成一个包含多个高质量参考译文的数据集。在训练非自回归模型时,我们将模型的输出与所有参考译文做比较,选择最匹配模型输出的一个译文来训练模型。实验结果表明,我们的方法在多个数据集上均取得了显著的提升,达到了目前非自回归模型中最先进的性能。
-
NLP组7篇论文被ACL 2022接收
课题组今年有7篇论文被ACL 2022接收, 其中6篇论文被ACL主会录用,1篇被findings of ACL录用。ACL全称是The 60th Annual Meeting of the Association for Computational Linguistics,是自然语言处理领域国际顶级会议之一;Findings of ACL是ACL 2021引入的在线附属出版物。
课题组今年有7篇论文被ACL 2022接收, 其中6篇论文被ACL主会录用,1篇被findings of ACL录用。ACL全称是The 60th Annual Meeting of the Association for Computational Linguistics,是自然语言处理领域国际顶级会议之一;Findings of ACL是ACL 2021引入的在线附属出版物。
Overcoming Catastrophic Forgetting beyond Continual Learning: Balanced Training for Neural Machine Translation(Chenze Shao, Yang Feng)
ACL, long paper
神经网络模型在新数据集上训练时,通常会逐渐遗忘旧数据集上学到的知识,在持续学习中的这种现象被称为灾难性遗忘。然而,我们发现即使模型始终在同一数据集上训练,灾难性遗忘现象仍然存在,具体表现为模型对新接触的样本关注更多、对较早接触的样本关注更少,我们把这种在训练样本上的不均衡问题称为“非均衡训练”。通过实验验证,我们发现非均衡训练问题在神经网络模型广泛存在,在机器翻译任务上尤其严重。通过进一步分析,我们揭示了在机器翻译上广泛使用的检查点平均技术与非均衡训练问题的联系,并确认了非均衡训练问题会对模型性能造成影响。为缓解这一问题,我们提出了互补在线知识蒸馏技术,通过对数据集的互补切分来保证教师模型始终与学生模型互补,从而使模型能够均匀地从所有训练样本中学习。在多个机器翻译任务上的实验表明,我们的方法成功地缓解了非均衡训练问题,取得了显著的性能提升。
Prediction Difference Regularization against Perturbation for Neural Machine Translation (Dengji Guo, Zhengrui Ma, Yang Feng, Min Zhang)
ACL, long paper
已有工作表明,训练时在输入中添加噪声能够提升神经网络机器翻译模型的泛化能力。本文认为这种方法片面强调了模型对训练数据的过拟合,对噪声数据进行了无差别拟合,却忽视了模型对训练数据的欠拟合。利用模型在噪声输入和原始输入上的预测差异,本文分析了模型对词级别样本的过拟合和欠拟合现象,揭示了模型的欠拟合现象,并实验证明了已有方法的缺陷。最后,本文提出将预测差异作为正则项,同时约束模型对过拟合和欠拟合行为。该方法在WMT16英德翻译任务上取得了1.80 SacreBLEU的提升。
Modeling Dual Read/Write Paths for Simultaneous Machine Translation(Shaolei Zhang, Yang Feng)
ACL, long paper
同步机器翻译在阅读源语句时输出翻译,因此需要模型在翻译过程中确定是等待下一个源词(READ)还是生成目标词(WRITE),这些动作构成了读/写路径。由于缺乏明确的约束,读/写路径一直是同步机器翻译性能的瓶颈。在本文中,我们开发了对偶路径同传(Dual Paths SiMT)来约束读/写路径,从而实现更好的性能。由于两个翻译方向上的读/写路径之间的对偶形式,我们明确地利用它们之间的对偶约束来相互约束。具体来说,‘Dual Paths’由源到目标(source-to-target)模型和目标到源(target-to-source)模型组成,它们具有自己的读/写路径。两个模型在对偶约束下联合优化了各自的读/写路径。在 En-Vi和De-En上的实验表明,我们的方法在两个方向上都提高了同步机器翻译性能,并且优于强基线。
Reducing Position Bias in Simultaneous Machine Translation with Length-Aware Framework(Shaolei Zhang, Yang Feng)
ACL, long paper
同步机器翻译 (SiMT) 在接收流式源输入时开始翻译,因此在翻译过程中源语句总是不完整的。与使用传统 seq-to-seq 架构的 整句翻译不同,同步机器翻译经常采用 prefix-to-prefix 架构,强制每个目标词只与部分源前缀对齐,以适应流输入中不完整的源。然而,因为总是出现在更多的前缀中,在前面位置的源词往往被虚幻地认为更重要。这会导致位置偏差,使得模型在测试中往往更加关注前面的源位置。在本文中,我们首先分析了同步机器翻译中的位置偏差现象(position bias),并开发了一个长度感知框架,通过弥补同步机器翻译和整句翻译之间的结构差距来减少位置偏差。具体来说,给定流输入,我们首先预测全句长度,然后用位置编码填充未来的源位置,从而将流输入变成伪全句。所提出的框架可以集成到大多数现有的方法中,以进一步提高性能。对两种具有代表性的同步机器翻译方法的实验表明,我们的方法成功地减少了位置偏差以实现更好的性能。
Gaussian Multi-head Attention for Simultaneous Machine Translation(Shaolei Zhang, Yang Feng)
Findings of ACL, long paper
同步机器翻译 (SiMT) 在接收流式源输入的同时输出翻译,因此需要一个策略来确定从哪里开始翻译。目标词和源词之间的对齐通常揭示了对每个目标词的信息量最大的源词,因此桥接了翻译质量和延迟,但不幸的是,现有的方法没有明确地对对齐进行建模以建模这种关系。在本文中,我们提出了高斯多头注意力(Gaussian Multihead Attention, GMA),通过以统一的方式对对齐和平移进行建模来开发新的同步机器翻译策略。对于读/写策略,GMA 对每个目标词的对齐源位置进行建模,并相应地等待至其对齐位置开始翻译。为了将对齐学习整合到翻译模型中,引入了以预测对齐位置为中心的高斯分布作为对齐相关的先验,它与翻译相关的软注意力合作确定最终的注意力。在En-Vi 和De-En任务的实验表明,我们的方法在翻译和延迟之间的权衡上优于强基线。
Neural Machine Translation with Phrase-Level Universal Visual Representations (Qingkai Fang, Yang Feng)
ACL, long paper
多模态机器翻译旨在借助图像信息辅助机器翻译,近年来受到广泛关注。然而,已有的大多数方法需要成对的句子和图片作为输入,这为多模态机器翻译的应用带来了较强的约束。为了打破这一约束,部分工作提出了基于检索的多模态机器翻译方法,即对于输入句子,从外部图片库中检索若干图片作为辅助。然而,我们发现句子级检索存在稀疏性,导致检索到的图片与输入句子相关性较差。为此,我们提出了短语级图像检索,为输入句子中的每个短语检索若干图像区域。此外,考虑到图片中包含的信息较为冗杂(如颜色、纹理、背景等),我们引入了一个条件变分自编码器模型来显式建模语义相关的图像特征。实验结果表明我们的方法在Multi30K En-De、En-Fr上均取得了显著的提升。
STMM: Self-learning with Speech-text Manifold Mixup for Speech Translation (Qingkai Fang, Rong Ye, Lei Li, Yang Feng, Mingxuan Wang)
ACL, long paper
端到端语音翻译的目标是利用一个模型完成从源语言语音到目标语言文本的翻译。由于语音翻译存在数据稀缺、任务复杂的挑战,以往工作通常会利用预训练、知识蒸馏等技术,借助额外的大规模文本翻译数据来辅助训练。然而,我们认为上述方法仍然没有充分利用已有的文本翻译数据,因为他们忽视了语音和文本间的模态鸿沟,即不同模态数据在连续空间中的表示存在较大差异。为了克服该问题,我们提出了一种基于Mixup的方法,对语音和文本序列进行单词级混合,从而得到跨模态的序列。在此基础上,我们引入了一个自我学习框架,将语音序列和跨模态序列一起输入模型,并使用JS散度拉近二者的输出。实验结果表明我们的方法在MuST-C数据集的8个语向上均取得了显著的提升,分析结果表明我们的方法能够有效减少跨模态表示差异。