计算所NLP团队发布高效图像/视频理解大模型 LLaVA-Mini
2025年1月,中国科学院计算技术研究所自然语言处理团队发布了高效多模态大模型——LLaVA-Mini 2025年1月,中国科学院计算技术研究所自然语言处理团队发布了高效多模态大模型——LLaVA-Mini,该模型能够在统一架构下高效地处理并理解普通图像、高分辨率图像和长视频。得益于多模态大模型的可解释性,LLaVA-Mini对视觉信息进行了有效压缩,每张图像仅需一个视觉token进行表示。在保证视觉理解性能的基础上,LLaVA-Mini显著提升了图像和视频理解的效率,具体表现为:减少计算量(FLOPs降低77%)、缩短响应时延(每张图像处理仅需40毫秒)、显著降低显存占用(从每张图像360MB降至0.6MB,支持在24GB GPU上处理长达3小时的视频)。 通过预分析和消融实验,我们发现,在多模态大模型(LMMs)中,视觉模态在模型的前几层起着至关重要的作用,它将视觉信息有效地融入文本指令中;然而,随着层数的加深,视觉模态的重要性逐渐减弱。基于这一发现,LLaVA-Mini引入了模态预融合模块和压缩模块。模态预融合模块在外部将视觉模态和文本模态进行预先融合,以确保模型具备足够的视觉理解能力;压缩模块则对输入的视觉信息进行高比例压缩(压缩至仅1个token),从而显著提升模型的效率。最终,LLaVA-Mini能够以高效的方式处理图像、高分辨率图像和长视频。 LLaVA-Mini的论文、代码、模型均已开源: 论文:https://arxiv.org/abs/2501.03895代码:https://github.com/ictnlp/LLaVA-Mini模型:https://huggingface.co/ICTNLP/llava-mini-llama-3.1-8b