-
NLP组2篇论文被AAAI 2020接收
课题组今年2篇论文被AAAI 2020接收。 AAAI会议由人工智能促进协会AAAI(Association for the Advancement of Artificial Intelligence)主办,是人工智能顶级会议之一。AAAI 2020将于2020年2月在美国纽约召开。
Modeling Fluency and Faithfulness for Diverse Neural Machine Translation. (Yang Feng, Wanying Xie, Shuhao Gu, Chenze Shao, Wen Zhang, Zhengxin Yang, Dong Yu)
神经机器翻译模型通常采用Teacher Forcing策略来进行训练,在该策略下,每个源句子都给定一个Ground Truth,在每个时间步翻译模型都被强制生成一个0-1分布,即只有Ground Truth的词语的概率为1,其他词语的概率为0。通过这种方式,强制每个时间步生成对应的Ground Truth词语。实际情况是即使是在训练集上,翻译模型也不能每次都输出Ground Truth词语作为翻译,甚至有时候Ground Truth词语的概率很小,但是,0-1分布将所有的概率分布仅通过Ground Truth词语进行梯度回传,词表中其他的词语均被忽略,从而影响了参数训练。为了解决这个问题,我们提出在神经机器翻译模型中引入一个评估模块,对生成的译文从流利度和忠实度两个方面进行评估,并用得到的评估分数用来指导训练阶段译文的概率分布,而在测试的时候,可以完全抛弃该评估模块,采用传统的Transformer模型进行解码。具体来说,我们的方法在Transformer的编码器-解码器结构的基础上添加了一个评估解码器,该解码器和Transformer的翻译解码器共享一个编码器。在评估模块中,对于流利度的评估,我们分别采用了一个历史编码器和一个未来编码器,来对过去时间步生成的译文以及未来时间步的Ground Truth词语进行编码,将这两部分编码进行融合作为当前词语的上下文表示,将在上下文的情况下生成当前词语的概率作为流利度;对于忠实度的评估,我们建模成一个翻译任务,即用当前词语的上下文表示检索出相关的源端表示,并将该源端表示翻译成当前词语的概率作为忠实度。为了更好的融合流利度和忠实度并能对其权重进行自动调整,我们又引入了一个融合层,来将流利度部分生成的上下文表示和忠实度部分检索的源端表示进行融合,来计算其生成当前词语的概率。最后,我们将评估模块生成的概率加入到损失函数中用于指导Transformer生成的翻译概率分布。实验中我们与Transformer模型、强化学习模型以及词袋模型进行了比较,我们的方法在中-英、英-罗马尼亚语言对上相比于所有的基线系统翻译效果均取得了显著提升。
Minimizing the Bag-of-Ngrams Difference for Non-Autoregressive Neural Machine Translation. (Chenze Shao, Jinchao Zhang, Yang Feng, Fandong Meng and Jie Zhou)
非自回归神经机器翻译模型(NAT)对目标词的生成进行独立的建模,从而显著地提升了翻译速度。然而,对非自回归模型来说,词级别的交叉熵损失函数无法准确地建模目标端的序列依赖关系,从而导致其与翻译质量的相关性较弱。因此,非自回归模型的译文中通常不太流畅,并且会带有过翻译和漏翻译的错误。在本文中,我们提出了基于模型与参考译文间n元组袋差异的训练目标,以该训练目标来训练非自回归模型。这个基于n元组袋的训练目标具有可导、高效的优点,它能够鼓励模型去捕捉目标端的序列依赖关系,与翻译质量有很好的相关性。我们在三个机器翻译数据集上进行了实验验证。实验结果表明,我们的方法在WMT14英语-德语数据集上有约5.0个BLEU值的大幅提升,在另外两个数据集上也有显著提升。
论文:
代码:http://github.com/ictnlp/BoN-NAT
-
NLP组1篇论文被EMNLP 2019接收
课题组今年有1篇论文被EMNLP 2019接收。EMNLP全称是Empirical Methods in Natural Language Processing,自然语言处理领域国际顶级会议之一。今年将于2019年11月在中国香港召开。
1. Enhancing Context Modeling with a Query-Guided Capsule Network for Document-level NMT
(Zhengxin Yang, Jinchao Zhang, Fandong Meng, Shuhao Gu, Yang Feng and Jie Zhou)
现有的文档级机器翻译(Document-Level NMT)方法通常利用层次化的注意力网络HAN(Hierarchical Attention Network)来抽取上下文信息特征,然而HAN并没有很好的建模上下文中每个句子内部词与词以及词与待翻译句子之间的语义关系。为了解决这个问题,我们提出了一种新型且简洁的胶囊网络架构QCN(Query-Guided Capsule Network),QCN将当前待翻译句子作为Query,指导胶囊网络在提取上下文中每个句子内部语义特征的同时,考虑所提取的语义特征与当前待翻译句子语义特征的相关性。实验证明,该方法可以较为有效的提高文档级机器翻译的质量。
-
NLP组荣获ACL 2019最佳长论文奖
在7月29日-31日召开的2019年ACL大会上,来自我课题组的论文《Bridging the Gap between Training and Inference for Neural Machine Translation》获得了大会唯一的最佳长文奖,这也是国内单位首次获得ACL最佳长文奖。这一工作是由我组冯洋老师、刘群老师指导学生张文等完成。其他作者中,孟凡东是从这一团队毕业的学生,游狄是在这一团队工作过的实习生。
这一工作针对神经机器翻译在训练和测试时所使用前序历史信息不同而造成的翻译质量问题,通过在训练时模拟测试时的前序历史信息,来减小了训练和测试时的偏差。具体来说,该工作首先采取一定的策略来模拟生成测试时的前序历史信息,然后通过采样的方式来将标准译文和模拟得到的前序历史信息输入到翻译模型中来生成译文。该工作在两个通过的翻译任务上的翻译性能均显著优于多个state-of-the-art模型。
本次大会一共收到投稿2905篇(长文1737篇,短文1168篇),共录用660篇(长文447篇,短文213篇),总录用率为22.7%,其中长文录用率为25.7%,短文录用率为18.2%。本次大会共设置了8个奖项,包括:
最佳长文奖
最佳短文奖
最佳演示论文奖
5个杰出论文奖。
该论文经过双盲评审、领域主席推荐、大会宣讲及专家投票,最终获得ACL 2019最佳长文奖。
国际计算语言学协会 (ACL,The Association for Computational Linguistics),是国际计算语言学界影响力最大的学术组织,ACL 年度会议也是计算语言学领域的最重要的国际会议,是CCF推荐的计算语言学方面唯一的A类会议。
-
NLP组CCMT评测任务取得佳绩
一年一度的全国机器翻译大赛 (CCMT 2019) 于近日公布了比赛结果,来自我组的两支队伍分别获得了藏汉评测第一名,语音评测第二名的好成绩!藏汉评测由队长古舒豪率领队员郭登级和邵晨泽完成,语音评测由队长单勇率领队员薛海洋、王树根、谢婉莹和张良完成。冯洋老师为两支队伍提供了充分地指导。
在本次大赛中,参赛队伍包括中科院计算所、NICT、中科院自动化所、北大、北航、上交大、华为、OPPO等30多个国内外知名高校和企业。尤以CCMT每年的特色项目——中国的三大少数民族语种维吾尔语,藏语和蒙古语三个方向的翻译任务竞争最为激烈。我组参加了藏语方向的翻译任务,并且获得冠军。语音翻译同样激烈,我组获得亚军。此次比赛为受限数据集,即必须使用组委会提供训练数据,这也就意味着,参赛各个单位必须以技术进行实力的角逐。
下表列出本次CCMT大赛藏汉翻译前10名系统得分情况:
下表列出本次CCMT大赛语音翻译主要系统得分情况:
-
NLP组4篇论文被ACL2019接收
5月15日,我组3篇长文1篇短文被ACL2019录用,第一作者分别是张文、邵晨泽、申磊和李泽康。
ACL是计算语言学和自然语言处理领域的顶级国际会议,CCF A类会议,由计算语言学协会主办,每年举办一次。ACL2019(the 57th Annual Meeting of the Association for Computational Linguistics)将于2019年7月28日至8月2日在意大利佛罗伦萨举行。下面是论文列表及介绍:
题目:Bridging the Gap between Training and Inference for Neural Machine Translation
作者:Wen Zhang, Yang Feng, Fandong Meng, Di You and Qun Liu
简介:为了解决NMT训练和测试时候context不一致的情况,我们从ground truth和自己生成的译文中以一定的概率采样词语作为context,随着训练的进行,选择ground truth词语的概率进行衰减,在RNNSearch和Transformer上翻译性能均有大幅提升。
题目:Retrieving Sequential Information for Non-Autoregressive Neural Machine Translation
作者:Chenze Shao, Yang Feng, Jinchao Zhang, Fandong Meng, Xilin Chen and Jie Zhou
本文旨在非自回归NMT中加入序列信息:一种是通过强化学习采用序列级的loss进行训练,另一种是在顶层加上自回归的结构。本文提出的强化学习算法讲top n枚举和sampling相结合,在满足无偏估计的基础上,减少迭代并降低方差。
题目:Modeling Semantic Relationship in Multi-turn Conversations with Hierarchical Latent Variables
作者:Lei Shen, Yang Feng and Haolan Zhan
简介:本文通过CVAE引入了层次化的隐变量来显式建模多轮对话中的语义关系。通过对话级别的隐变量确定全局的背景信息,末轮问答对级别的隐变量捕捉关系最密切的问答之间的相同话题表示,末轮问答句级别的隐变量分别表征问答的不同语言表达方式,显著提高了多轮对话中应答的多样性和一致性。
题目:Incremental Transformer with Deliberation Decoder for Document Grounded Conversations
作者:Zekang Li, Cheng Niu, Fandong Meng, Yang Feng, Qian Li and Jie Zhou
简介:本文提出了一种基于Transformer模型的增量式Transformer+推敲解码器模型,用于解决基于文档知识的多轮对话任务,有效提升了生成回复的上下文的一致性和知识的正确性,在相关数据集的自动评测和人工评测中取得了远超基线模型的结果。