2025年6月16日,计算所自然语言处理组发布Stream-Omni大型语言-视觉-语音模型,通过对视觉和语音采取不同的对齐策略,实现了更高效、灵活的多模态对齐与同步交互体验。
GPT-4o的出现,引发了学界对于整合文本、视觉和语音模态以支持更灵活多模态交互的探索。现有的多模态大模型通常将不同模态的表示在序列维度上进行拼接,然后输入到大语言模型(LLM)的主干网络中。尽管序列维度的拼接是一种直接的模型整合方法,但它通常严重依赖大规模数据来学习模态间的对齐。
为解决这一挑战,我们提出了一种更具针对性的模态关系建模方法Stream-Omni,以实现更高效、灵活的对齐 。该模型以LLM为核心,根据视觉和语音模态与文本的关系,采用了两种不同的对齐策略——视觉-文本对齐:对于与文本在语义上构成互补关系的视觉信息,采用成熟的序列维度拼接方法进行对齐。语音-文本对齐:对于与文本在语义上保持一致的语音信息,创新性地引入了一种基于连接时序分类(CTC)的层维度映射技术,以实现精准对齐。
通过这种创新的设计,Stream-Omni能够用更少的数据(尤其是语音数据)实现高效的模态对齐,并将LLM强大的文本处理能力成功迁移至视觉和语音模态 。模型还能够在进行语音交互的同时,同步提供中间文本输出,例如实时语音识别(ASR)的转录字幕和模型生成的文本响应,为用户提供了全面而丰富的多模态交互体验 。在多种基准测试上的实验结果表明,Stream-Omni在视觉理解、纯语音交互以及视觉辅助的语音交互等任务上均取得了优异的性能。
论文链接:
https://arxiv.org/abs/2506.13642
项目地址:
https://github.com/ictnlp/Stream-Omni
模型:
https://huggingface.co/ICTNLP/stream-omni-8b