近日,自然语言处理研究组一篇论文被IEEE/ACM Transactions on Audio, Speech and Language Processing(TASLP)期刊录用。TASLP期刊是是音频、声学、自然语言处理的顶级期刊,在CCF学术推荐列表中认定为B类刊物,清华最新版计算机学术推荐列表中认定为A类刊物,属于SCI一区期刊。录用文章具体相关信息如下:
Bridging Text and Video: A Universal Multimodal Transformer for Video-Audio Scene-Aware Dialog(Zekang Li, Zongjia Li, Jinchao Zhang, Yang Feng, Jie Zhou)
基于视频音频的多模态对话任务是在在对话中讨论一段给定的视频。这个任务有两个挑战性的问题:1)在不同模态间进行有效的交互2)更好的理解对话上下文和生成信息丰富的回复。为了解决这两个挑战, 论文提出了一个统一的多模态Transformer模型。为了使模型学到不同模态间的联合表示以及生成连贯信息丰富的回复,设计了三个训练任务:Response Language Modeling ,Video-Audio Sequence Modeling ,Caption Language Modeling 。论文提出的方法在DSTC8 AVSD比赛自动评测以及人工评测中均取得第一名。