近日,全球第二届同声传译测评比赛 (The 2nd Workshop on Automatic Simultaneous Translation,AutoSimTrans 2021) 公布了测评比赛结果,NLP课题组的参赛队伍在中文-英语流式输入赛道获得冠军。参赛系统主要由博士生张绍磊完成,冯洋老师提供了充分的指导。该系统描述论文《ICT’s System for AutoSimTrans 2021: Robust Char-Level Simultaneous Translation》发表在NAACL 2021 workshop中。
本届同传测评由百度联合谷歌、华为和格勒诺布尔-阿尔卑斯大学共同举办。本次大赛吸引了来自中科院计算所、平安科技、北京理工大学、厦门大学、香港中文大学等多支队伍。在本次同传测评比赛中,提交系统需要在主办方提供的70h真实场景数据上进行训练和测试,接受流式输入,并实时完成翻译。
针对真实场景中流式输入的特点,我们提出更加鲁棒的字符级同步翻译模型,并且利用数据增广和自研的Future-guided技术增强模型的领域自适应能力和预测能力。
下图展示了参赛队伍在中文-英语流式输入赛道的翻译质量-延时结果。我们提交的系统在翻译质量和延时权衡上表现最佳,尤其在低延时下表现格外强劲。在相同延时下,翻译质量高出约12BLEU;在相同翻译质量下,平均可以少等待4个单词提前完成翻译。