-
NLP组荣获ACL 2019最佳长论文奖
在7月29日-31日召开的2019年ACL大会上,来自我课题组的论文《Bridging the Gap between Training and Inference for Neural Machine Translation》获得了大会唯一的最佳长文奖,这也是国内单位首次获得ACL最佳长文奖。这一工作是由我组冯洋老师、刘群老师指导学生张文等完成。其他作者中,孟凡东是从这一团队毕业的学生,游狄是在这一团队工作过的实习生。
这一工作针对神经机器翻译在训练和测试时所使用前序历史信息不同而造成的翻译质量问题,通过在训练时模拟测试时的前序历史信息,来减小了训练和测试时的偏差。具体来说,该工作首先采取一定的策略来模拟生成测试时的前序历史信息,然后通过采样的方式来将标准译文和模拟得到的前序历史信息输入到翻译模型中来生成译文。该工作在两个通过的翻译任务上的翻译性能均显著优于多个state-of-the-art模型。
本次大会一共收到投稿2905篇(长文1737篇,短文1168篇),共录用660篇(长文447篇,短文213篇),总录用率为22.7%,其中长文录用率为25.7%,短文录用率为18.2%。本次大会共设置了8个奖项,包括:
最佳长文奖
最佳短文奖
最佳演示论文奖
5个杰出论文奖。
该论文经过双盲评审、领域主席推荐、大会宣讲及专家投票,最终获得ACL 2019最佳长文奖。
国际计算语言学协会 (ACL,The Association for Computational Linguistics),是国际计算语言学界影响力最大的学术组织,ACL 年度会议也是计算语言学领域的最重要的国际会议,是CCF推荐的计算语言学方面唯一的A类会议。
-
NLP组CCMT评测任务取得佳绩
一年一度的全国机器翻译大赛 (CCMT 2019) 于近日公布了比赛结果,来自我组的两支队伍分别获得了藏汉评测第一名,语音评测第二名的好成绩!藏汉评测由队长古舒豪率领队员郭登级和邵晨泽完成,语音评测由队长单勇率领队员薛海洋、王树根、谢婉莹和张良完成。冯洋老师为两支队伍提供了充分地指导。
在本次大赛中,参赛队伍包括中科院计算所、NICT、中科院自动化所、北大、北航、上交大、华为、OPPO等30多个国内外知名高校和企业。尤以CCMT每年的特色项目——中国的三大少数民族语种维吾尔语,藏语和蒙古语三个方向的翻译任务竞争最为激烈。我组参加了藏语方向的翻译任务,并且获得冠军。语音翻译同样激烈,我组获得亚军。此次比赛为受限数据集,即必须使用组委会提供训练数据,这也就意味着,参赛各个单位必须以技术进行实力的角逐。
下表列出本次CCMT大赛藏汉翻译前10名系统得分情况:
下表列出本次CCMT大赛语音翻译主要系统得分情况:
-
NLP组4篇论文被ACL2019接收
5月15日,我组3篇长文1篇短文被ACL2019录用,第一作者分别是张文、邵晨泽、申磊和李泽康。
ACL是计算语言学和自然语言处理领域的顶级国际会议,CCF A类会议,由计算语言学协会主办,每年举办一次。ACL2019(the 57th Annual Meeting of the Association for Computational Linguistics)将于2019年7月28日至8月2日在意大利佛罗伦萨举行。下面是论文列表及介绍:
题目:Bridging the Gap between Training and Inference for Neural Machine Translation
作者:Wen Zhang, Yang Feng, Fandong Meng, Di You and Qun Liu
简介:为了解决NMT训练和测试时候context不一致的情况,我们从ground truth和自己生成的译文中以一定的概率采样词语作为context,随着训练的进行,选择ground truth词语的概率进行衰减,在RNNSearch和Transformer上翻译性能均有大幅提升。
题目:Retrieving Sequential Information for Non-Autoregressive Neural Machine Translation
作者:Chenze Shao, Yang Feng, Jinchao Zhang, Fandong Meng, Xilin Chen and Jie Zhou
本文旨在非自回归NMT中加入序列信息:一种是通过强化学习采用序列级的loss进行训练,另一种是在顶层加上自回归的结构。本文提出的强化学习算法讲top n枚举和sampling相结合,在满足无偏估计的基础上,减少迭代并降低方差。
题目:Modeling Semantic Relationship in Multi-turn Conversations with Hierarchical Latent Variables
作者:Lei Shen, Yang Feng and Haolan Zhan
简介:本文通过CVAE引入了层次化的隐变量来显式建模多轮对话中的语义关系。通过对话级别的隐变量确定全局的背景信息,末轮问答对级别的隐变量捕捉关系最密切的问答之间的相同话题表示,末轮问答句级别的隐变量分别表征问答的不同语言表达方式,显著提高了多轮对话中应答的多样性和一致性。
题目:Incremental Transformer with Deliberation Decoder for Document Grounded Conversations
作者:Zekang Li, Cheng Niu, Fandong Meng, Yang Feng, Qian Li and Jie Zhou
简介:本文提出了一种基于Transformer模型的增量式Transformer+推敲解码器模型,用于解决基于文档知识的多轮对话任务,有效提升了生成回复的上下文的一致性和知识的正确性,在相关数据集的自动评测和人工评测中取得了远超基线模型的结果。
-
NLP组2篇论文被EMNLP2018接收
近期,我组张文的一篇长文和邵晨泽的一篇短文被EMNLP2018录用。
EMNLP2018, 2018 Conference on Empirical Methods in Natural Language Processing将于2018年10月31日至11月4日在比利时的首都布鲁塞尔举行。EMNLP是自然语言处理领域的重要国际会议,每年举办一次。
张文的论文领域为机器翻译,其被录用的论文信息如下:
文章名:Speeding Up Neural Machine Translation Decoding by Cube Pruning
作者列表:Wen Zhang, Liang Huang, Yang Feng, Lei Shen and Qun Liu
主要内容:尽管神经机器翻译已取得了可喜的成果,但它在推理时的翻译速度较慢。这样的直接后果是必须在翻译质量和速度之间进行权衡,而其性能无法得到充分发挥。在本文中,我们将cube pruning应用于神经机器翻译以提高翻译速度。通过组合相似的目标隐藏状态以构造等价类,使得目标端的RNN扩展操作和在目标端的大词汇表上的softmax操作变少。实验结果表明,当获得相同甚至更好的翻译质量时,我们的方法可以比朴素的beam search在GPU上快5~7倍,在CPU上快7.3倍。
邵晨泽的论文领域为机器翻译,其被录用的论文信息如下:
文章名:Greedy Search with Probabilistic N-gram Matching for Neural Machine Translation
作者列表:Chenze Shao, Xilin Chen, Yang Feng
主要内容:神经机器翻译(NMT)模型通常在Teacher Forcing算法下利用单词级损失进行训练,不能正确评估翻译并受到exposure bias的影响。强化框架下的序列级训练可以缓解词级损失的问题,但是这种改进受到梯度估计的高方差的限制。在本文中,我们引入了概率n-gram匹配,并提出了一种生成可微分序列级目标的方法,通过它我们减少了对梯度估计的依赖。另外,我们在训练中直接进行贪婪搜索以减轻exposure bias。NIST汉英翻译任务的实证结果表明,我们的方法明显优于基于强化的算法,并且在强基线系统上实现了平均1.5个BLEU值的提升。
-
我组张文的论文被COLING2018录用
最近,我组博士生张文的一篇的长文被COLING2018录用。
COLING2018, the 27th International Conference on Computational Linguistics将于2018年8月20日至25日在美国圣达菲举行。COLING是自然语言处理领域的重要国际会议,每两年举办一次。
张文的论文领域为机器翻译,其被录用的论文信息如下:
文章名:Refining Source Representations with Relation Networks for Neural Machine Translation
作者列表:Wen Zhang, Jiawei Hu, Yang Feng and Qun Liu
主要内容:尽管最近编码器-解码器框架的神经机器翻译取得了很大的成功,但它仍然存在着遗忘远距离信息的缺点,并且在编码步骤中忽略源端词汇之间的关系。本文的目标是解决这些问题,并因此引入关系网络来学习更好的源端表示。关系网络能够通过将源端词汇相互关联来促进递归神经网络的记忆能力,同时有助于保持源端词汇之间的关系。然后将源端表示和所有关系一起送到解码器的attention组件中。在几个数据集上的实验表明,与传统的编码器-解码器模型相比,本文的方法可以显着提高翻译性能,甚至超越一些涉及句法知识的方法。