-
NLP组1篇论文被TASLP期刊接收
近日,自然语言处理研究组一篇论文被IEEE/ACM Transactions on Audio, Speech and Language Processing(TASLP)期刊录用。TASLP期刊是是音频、声学、自然语言处理的顶级期刊,在CCF学术推荐列表中认定为B类刊物,清华最新版计算机学术推荐列表中认定为A类刊物,属于SCI一区期刊。录用文章具体相关信息如下:
Bridging Text and Video: A Universal Multimodal Transformer for Video-Audio Scene-Aware Dialog(Zekang Li, Zongjia Li, Jinchao Zhang, Yang Feng, Jie Zhou)
基于视频音频的多模态对话任务是在在对话中讨论一段给定的视频。这个任务有两个挑战性的问题:1)在不同模态间进行有效的交互2)更好的理解对话上下文和生成信息丰富的回复。为了解决这两个挑战, 论文提出了一个统一的多模态Transformer模型。为了使模型学到不同模态间的联合表示以及生成连贯信息丰富的回复,设计了三个训练任务:Response Language Modeling ,Video-Audio Sequence Modeling ,Caption Language Modeling 。论文提出的方法在DSTC8 AVSD比赛自动评测以及人工评测中均取得第一名。
-
NLP组1篇论文被AAAI 2021接收
课题组今年1篇论文被AAAI 2021接收。 AAAI会议由人工智能促进协会AAAI(Association for the Advancement of Artificial Intelligence)主办,是人工智能顶级会议之一。AAAI 2021将于2021年2月2-9号召开。
Future-Guided Incremental Transformer for Simultaneous Translation. (Shaolei Zhang, Yang Feng, Liangyou Li)
同步翻译(Simultaneous translation,ST)在读入源端句子的同时输出目标端翻译,并在很多实时场景下被广泛应用。作为先前主流的同步翻译方法,wait-k策略结构简单并在同步翻译中取得了良好的性能。
然而,wait-k策略面临两个缺点:1)由于在每个解码时刻需要重新计算源端输入的隐藏状态,而导致训练速度较低;2)在训练过程中,缺乏可以指导培训的未来信息,导致对未来的隐式预测并不可控。
对于过慢的训练速度,我们提出一种具有平均嵌入层(Average Embedding Layer,AEL)的增量式Transformer,以加快训练期间隐藏状态的计算速度。对于利用未来信息指导训练,我们引入一个传统Transformer作为增量式Transformer的老师,并尝试通过知识蒸馏隐式地将一些未来信息嵌入到模型中。
我们对汉-英和德-英同步翻译任务进行了实验,并与wait-k策略进行了比较以评估我们的方法。我们的方法可以有效地将不同k条件下的训练速度平均提高约28倍,并成功地使模型嵌入更强的预测能力,从而获得比wait-k策略更好的翻译质量。
-
NLP组1篇论文被COLING 2020接收
课题组今年1篇论文被COLING 2020接收。 COLING 2020全称是The 28th International Conference on Computational Linguistics,今年将在12月8-13日于线上举行。
Investigating Catastrophic Forgetting During Continual Training for Neural Machine Translation (Shuhao Gu, Yang Feng)
神经机器翻译(NMT)模型在持续学习的过程中经常会出现灾难性遗忘的现象,在这种情况下,模型往往会逐渐忘记先前学习到的知识,而去过度拟合可能具有不同分布(例如不同域)的新添加数据。虽然人们提出了许多解决这一问题的方法,但我们还不知道是什么原因造成了这种现象。在领域适应的背景下,我们从模块和参数(神经元)的角度研究灾难性遗忘的原因。通过对NMT模型中模块的研究,发现有些模块与保留源领域知识有着紧密的联系,而有些模块在领域适应中则更为重要。此外,对模型参数的研究表明,某些参数对源领域和目标领域的翻译都很重要,而且在持续学习的过程中,这些参数的变化会导致源领域的性能下降。我们在不同的语言对和领域进行了实验,以确保我们的发现的有效性和可靠性。
-
NLP组2篇论文被EMNLP 2020接收
课题组今年2篇论文被EMNLP 2020接收。 EMNLP全称是Empirical Methods in Natural Language Processing,自然语言处理领域国际顶级会议之一。
Token-level Adaptive Training for Neural Machine Translation (Shuhao Gu, Jinchao Zhang, Fandong Meng, Yang Feng, Wanying Xie, Jie Zhou and Dong Yu)
在现实中,由于不同的词出现的频率不同,自然语言中存在着天然的词分布不平衡的现象,这会给神经机器翻译对于低频词的学习带来困难。
传统的NMT模型通常对不同频率的目标词采用相等的权重,这会导致神经机器翻译相较于真实的自然语言,倾向于生成更多的高频词和更少的低频词。
然而,低频词可能携带重要的语义信息,一旦被忽略,这些信息将影响整体的翻译质量。
因此,在本文中我们探索了基于词频的不同词的训练权重的自适应分配方法,在训练过程中为每个目标词分配适当的权重。
我们的目的是让那些包含语义但频率相对较低的单词在训练目标中被赋予更大的权重,以鼓励模型对这些低频词给予更多的关注。
我们的方法在中文到英文、德文到罗马尼亚文和英文到德文的翻译任务中都进一步的提高了翻译质量,特别是对于含有更多低频词的句子,我们可以分别得到1.68、1.02和0.52的BLEU值提升。进一步的分析表明,我们的方法还可以提高翻译的词汇多样性,让翻译变得更加自然。
Generating Diverse Translation from Model Distribution with Dropout (Xuanfu Wu, Yang Feng and Chenze Shao)
实现多样化的生成是现有的端到端机器翻译的一个瓶颈,现有方法面临提升多样性效果、简化训练等问题。而本文则另辟蹊径,将带有Dropout的模型视为一个模型分布,在训练中使其接近真实分布,而在测试的过程中通过对分布进行采样来得到多样化的结果。在本文中,作者参考了Yarin Gal的一系列的研究,采用了Monte-Carlo Dropout以及Concrete Dropout等方法,并在NIST Zh-En数据集和WMT16 En-De数据集进行实验,分析各种因素对翻译模型多样性与准确性的影响,并与之前的研究做了对比,发现我们的方法在付出较小训练代价的情况,在对翻译多样性和准确性的平衡上接近甚至超过了各个对照组。
-
NLP组2篇论文被ACL 2020接收
课题组今年有2篇论文被ACL 2020接收。ACL全称是The 58th Annual Meeting of the Association for Computational Linguistics,是自然语言处理领域国际顶级会议之一。
CDL: Curriculum Dual Learning for Emotion-Controllable Response Generation (Lei Shen, Yang Feng)
融入情感因素的回复可以使对话更加吸引人并能产生共鸣,其中,情感可控的回复生成是一个重要的研究分支。现有的方法主要通过在交叉熵损失中加入正则项来强化情感表达,并且忽略掉了query/post的情感特征,而文本中情感和语义是很难分离的,这样的做法会对回复的一致性造成损失。同时,一个具有多种情感的数据集通常是多噪音的,且数据样例的学习难度也是不同的。受课程学习和对偶学习的启发,本文提出了课程对偶学习,将数据样例按照基于情感类别的学习难度进行排序,同时设计了基于语义一致性和情感表达(显式/隐式)的reward用于对偶学习的训练。在包含六类情感标签的NLPCC2017可控情感回复生成数据集上,我们的模型取得了更好的结果,尤其在回复的一致性和情感表达上都有明显的提升。
A Contextual Hierarchical Attention Network with Adaptive Objective for Dialogue State Tracking (Yong Shan, Zekang Li, Jinchao Zhang, Fandong Meng, Yang Feng, Cheng Niu, Jie Zhou)
在对话状态跟踪任务中,高效利用对话历史中的相关信息至关重要,而先前的研究对此建模尚有不足。我们提出了一种从对话历史中层次化地查询相关信息的新模型,该模型分别从词、对话轮次这两个级别建模槽位与对话历史之间的交互,并使用一个独立的上下文编码器对各轮次相关信息之间的关系进行编码。此外,我们发现槽位不均衡问题限制了对话状态跟踪任务的整体性能,于是在模型的基础上提出了一种自适应的训练目标用于缓解该问题,它能在训练过程中动态地评估各槽位的训练难度并自适应地调整各槽位的学习权重。我们的方法在两个大型对话数据集上(MultiWOZ 2.0、MultiWOZ 2.1)上取得了state-of-the-art的效果,大幅超过先前的模型,并具有良好的可伸缩性和通用性。