2014年10月25日至30日,本组孟凡东同学参加了今年在卡塔尔多哈(Doha)举办的自然语言处理的经验方法会议(EMNLP)。EMNLP隶属计算语言学学会(The Association for Computational Linguistics) 旗下,是国际上最具影响的计算语言学及自然语言处理学术会议之一。今年除了EMNLP主会议外,还有6个Workshop 和8个Tutorial同期举行。本次会议共有790篇长文投稿,最终录用长文155篇。
我组孟凡东同学被EMNLP2014会议录用的论文是:
Fandong Meng, Deyi Xiong, Wenbin Jiang, and Qun Liu. Modeling Term Translation for Document-informed Machine Translation.
该论文的报告形式为Oral报告,论文提出了术语翻译领域消歧模型、术语翻译领域一致性模型和术语整体性翻译模型,并将这三个模型融入到层次短语模型中,藉以改进句子/文档中术语的翻译以及术语所在句子/文档整体的翻译。该工作首次将术语翻译模型融入到统计机器翻译模型中,利用文档信息指导术语翻译的领域消歧并保持术语翻译的领域一致性。
以下是孟凡东同学的参会心得:
================================================================================================================================
孟凡东
EMNLP2014会议纪行
2014年10月25日凌晨01:55,我乘坐卡塔尔航空QR895从北京首都机场出发,于卡塔尔时间05:50抵达多哈机场。大约1个小时后,到达EMNLP2014会议官方提供的酒店,办理入住手续并完成了会议注册。
当天,我参加了Dekai Wu组织的Workshop“SSST-8: Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation”。该Workshop中有一些非常好的工作,如Cho et al. 的“On the Properties of Neural Machine Translation: Encoder–Decoder Approaches” 和Karteek Addanki and Dekai Wu 的“Transduction Recursive Auto-Associative Memory: Learning Bilingual Compositional Distributed Vector Representations of Inversion Transduction Grammars”。尤其是“On the Properties of Neural Machine Translation: Encoder–Decoder Approaches”,该工作介绍了完全基于神经网络的全新翻译模型“RNN Encoder-Decoder”。Cho还介绍了在源端利用GRCNN做Encoder的方法,引起了广泛关注。
在这个Workshop上,我还遇到了都柏林城市大学的李良友博士,听了他的报告“Transformation and Decomposition for Efficiently Implementing and Improving Dependency-to-String Model In Moses”。我还见到了华为研究院诺亚方舟实验室的吕正东博士,和他讨论了RNN与MT结合的一些思路。
10月26日,首先大会主席对整体会议的情况包含录取率等做了一个较为全面的汇报,接着是IBM的SalimRoukos 的特邀报告“IBM Cognitive Computing – An NLP Renaissance! ”。该报告介绍了IBM近20年来所做的工作,包括信息抽取、机器翻译等,报告非常精彩。接着,三个分组报告和Poster报告并行展开。三个分组报告分别是“Neural Net Mixer”、“Discourse, Dialogue and Pragmatics”和“Segmentation / Spoken Language”,其中“Neural Net Mixer”是最受欢迎的。Neural Network是最近最热门的话题,我参加了“Neural Net Mixer”的分组报告,听完了全部报告,其中“Translation Modeling with Bidirectional Recurrent Neural Networks”这个工作给我的印象最为深刻。
我的报告就在10月26日下午,是“Machine Translation”分组报告的第一个。第一次做分组报告,报告前非常紧张,但是报告开始之后快速的心跳渐渐平息了。
10月27日,会议以Thorsten Joachims的特邀报告“Learning from Rational Behavior”拉开序幕。接着依然是三个分组报告与Poster报告并行展开。我还是参加了“Neural Net Mixer”报告,其中有两个报告影响很深刻。一个是“The Inside-Outside Recursive Neural Network model for Dependency Parsing”,该工作可能会帮助我思考如何将语言学信息融合到神经网络机器翻译模型中。另一个是斯坦福的“A Fast and Accurate Dependency Parser using Neural Net- works”,利用神经网络模型做移进-规约的依存分析,主要是利用神经网络做分类,虽然方法比较传统,但是效果却是不错的。下午我参加了“Semantics”分组报告,报告并不像想象的那么精彩,听了两个之后,我就去看Poster了。
10月28日上午,主席公布了本次会议的最佳论文:“”,接下来文章作者做了非常精彩的报告。茶歇过后,我参加了Poster报告,因为我对上午的几个分组报告兴趣不大。在Poster报告区,Cho et al. 的“”是最受关注的。该文章首次提出了利用RNN Encoder-Decoder来做机器翻译,一个非常简单纯净的模型,却取得了不错的效果,我认为有很大的潜力可挖。下午,我主要参加了“Machine Learning and Machine Translation”这个分组报告,其中重点听了Lemao Liu and Liang Huang 的工作“”。这个工作是在于恒2013年EMNLP上的“Max-Violation Perceptron and Forced Decoding for Scalable MT Training”工作上的改进,主要是利用翻译的评价指标来指导优化搜索过程。
10月29日上午,我参加了Antoine Bordes 和 Jason Weston的Tutorial “Embedding Methods for Natural Language Processing”。因为我接下来要做一些深度学习与机器翻译结合的工作,所以要参加这个Tutorial补充一些深度学习相关知识。
午餐过后,我收拾行李,办理退房手续。我们乘坐10月30日凌晨1:45的卡塔尔航空QR898返回北京。EMNLP 2014, 难忘的多哈之旅,就这样结束了。