Ola全模态大模型屠榜:OpenCompass性能第一,超GPT-4o等,清华联合腾讯开源,四模态融合

AI项目3个月前更新 MeoAI
668 0

一、Ola是什么

Ola是由清华大学智能视觉实验室、腾讯混元研究院与南洋理工大学S-Lab联合研发的第七代全模态人工智能模型,于2025年2月正式开源。Ola-7b 在 OpenCompass 多模态排行榜上,至2025年2月18日,其于所有参数小于 30B 的模型中位列第一,平均得分为 72.6。该模型突破性地实现了文本、图像、视频、音频四模态的深度融合处理,在7B参数规模下达到商用级多模态理解能力。其核心创新点在于渐进式模态对齐技术,通过分阶段训练策略将跨模态数据需求降低67%,训练效率较传统方案提升42%。

ola模型

二、Ola核心功能架构

1. 全模态理解引擎

  • 四维输入支持:同步处理文本(最高32k tokens)、图像(8K分辨率)、视频(24fps流媒体)、音频(48kHz采样率)
  • 跨模态推理:在医疗影像分析场景中,可同步解析CT影像与病理报告音频,实现多维度诊断支持
  • 动态资源分配:通过模态感知调度算法,自动分配计算资源(图像处理占35%,音频处理占15%,视频处理占40%)

2. 实时交互系统

  • 流式语音生成:语音延迟控制在280ms以内,支持中英日等12种语言的实时对话
  • 多模态输出:单次交互可同步生成文本报告(平均响应时间0.8s)与语音解说(延迟320ms)
  • 中断恢复机制:支持语音交互过程中的打断续接,上下文保持准确率达93.7%

3. 渐进式训练框架

  • 三阶段训练流程
    1. 基础阶段:500亿token文本-图像对齐训练(ViT-22B视觉编码器)
    2. 增强阶段:200小时视频数据时空建模(包含手术教学视频等专业场景)
    3. 融合阶段:5万条跨模态视频样本实现音画同步理解

三、Ola性能评测——基准测试结果

ola benchmark performance

1. 图像理解:在极具挑战性的 OpenCompass 基准测试中,OLA 在 MMBench-1.1、MMMU 等 8 个数据集上的总体平均准确率达到 72.6%,在市面上所有 30B 参数以内的模型中排名第 1,超越了 GPT-4o、InternVL2.5、Qwen2.5-VL 等主流模型。

  • MMBench-1.1:OLA 在 MMBench-1.1 上取得了 84.3% 的平均得分,超越了同参数量级别的其他多模态语言模型(LLMs),展现了其在图像理解方面的强大能力。
  • MMStar:在 MMStar 测试中,OLA 的平均得分为 70.8%,进一步证明了其在图像理解任务中的优异性能。
  • MMMU:OLA 在 MMMU 上的平均得分是 57.0%,能够有效处理复杂的图像相关任务。
  • MathVista:在 MathVista 测试中,OLA 取得了 68.4% 的成绩,显示出其在数学相关图像理解方面的实力。
  • AI2D:OLA 在 AI2D 上的得分为 86.1%,表明其对图像中的几何图形等元素有很好的理解能力。
  • OCRBench:在 OCRBench 测试中,OLA 的得分为 827,体现了其在光学字符识别相关任务中的高效性。

2. 视频理解:在综合视频理解测试 VideoMME 中,OLA 在输入视频和音频的情况下,取得了 68.4% 的准确率,超越了 LLaVA-Video、VideoLLaMA3 等知名的视频多模态模型。

  • VideoMME:在 VideoMME 测试中,OLA 达到了 68.4% 的准确率,这一成绩在 7B 参数量的模型中处于领先地位,展示了其同时处理视频和音频输入的强大能力,为视频理解任务树立了新的标杆。
  • LongVideoBench:在 LongVideoBench 测试中,OLA 也保持了领先的位置,相比主流的视频 LLMs 如 LLaVA-Video 和 VideoCCAM 等,表现出更好的长视频理解能力。
  • MVBench:在 MVBench 测试中,OLA 同样展现出优异的性能,进一步证明了其在视频理解方面的全面性和可靠性。

3. 音频理解:在语音识别和聊天评估等音频理解任务方面,OLA 也表现卓越,达到了接近最好音频理解模型的水平。

  • LibriSpeech:在 LibriSpeech 测试中,OLA 的平均词错误率(WER)为 3.1%,其中在 test-clean、test-other、dev-clean、dev-other 等子集上的表现均优于现有的全模态 LLMs,包括专注于音频理解的 LLaMA-Omni 等模型,体现了其在语音识别任务中的高效性。
  • AIR-Bench:在 AIR-Bench 测试中,OLA 的平均得分为 6.41,展现了其在音频理解任务中的出色表现,如音频语音识别和聊天评估等方面。

四、Ola技术实现路径

1.Ola 训练策略详细介绍

模态关系概述

在 Ola 的训练策略中,首先明确了不同模态之间的关系。语音模态在语言和音频知识之间起到了连接作用,它将语言信息与音频特征紧密联系在一起。而视频模态则构建了与高度相关的视觉和音频信息之间的桥梁,视频中的视觉内容和音频内容相互补充,共同构成了丰富的多模态信息。这种模态之间的关系为 Ola 的训练提供了基础框架,使得模型能够更好地理解和处理多模态数据。

逐步模态对齐训练策略

基于上述模态关系,Ola 设计了从主要模态到外围模态的逐步对齐训练策略。这一策略的核心思想是先从主要模态入手,逐步扩展到其他模态,从而实现对所有模态的全面理解和对齐。

  • 在训练的初始阶段,Ola 首先聚焦于文本和图像这两种主要模态。文本模态提供了语言信息,而图像模态则提供了视觉信息。通过对这两种模态的训练,模型初步建立了对语言和视觉内容的理解能力,为后续的模态扩展奠定了基础。
  • 在文本和图像模态的基础上,Ola 逐步引入语音模态。语音模态的加入使得模型能够将语言信息与音频特征相结合,进一步提升了对语言的理解能力。同时,语音模态也为模型提供了更多的上下文信息,有助于提高模型在多模态场景下的表现。
  • 最后,Ola 将视频模态纳入训练过程。视频模态包含了丰富的视觉和音频信息,通过与之前训练的模态进行融合,模型能够更好地理解和处理复杂的多模态场景。视频模态的引入不仅增强了模型的视觉和音频理解能力,还促进了不同模态之间的相互补充和协同作用。

跨模态数据设计

为了更好地捕捉不同模态之间的关系,Ola 还设计了跨模态的视频 – 音频数据。这种数据设计使得模型能够在训练过程中充分利用视频和音频之间的关联信息,进一步提升对多模态数据的理解能力。

    • 在构建跨模态数据时,Ola 将视频中的视觉内容与音频内容进行配对,形成视频 – 音频数据对。这些数据对包含了丰富的多模态信息,能够更好地反映现实世界中的多模态场景。
    • 在训练过程中,模型通过对这些视频 – 音频数据对的学习,能够更好地理解视觉和音频信息之间的关系。例如,模型可以学习到视频中的视觉内容与音频中的语音或背景音乐之间的对应关系,从而在处理多模态任务时能够更加准确地进行信息融合和理解。
  • Ola 的逐步模态对齐训练策略和跨模态数据设计具有多方面的优势,为模型的性能提升提供了有力支持。
    • 通过逐步对齐的方式,模型能够在不同阶段专注于特定模态的学习,避免了在一开始就处理复杂的多模态数据所带来的困难。这种分阶段的训练方式使得模型能够更高效地学习和理解多模态信息,提高了训练的效率和效果。
    • 从主要模态到外围模态的逐步扩展,使得模型能够全面覆盖所有模态,确保对每一种模态都有深入的理解。同时,跨模态数据的设计进一步增强了模型对不同模态之间关系的把握,使得模型在处理多模态任务时能够更加全面和准确。
    • 这种训练策略使得模型具有较强的适应性,能够更好地应对不同类型的多模态任务。无论是在图像、视频还是音频相关的任务中,模型都能够凭借其对多模态信息的全面理解和对齐,提供准确和有效的解决方案。

2. 模态编码方案

模态类型 编码器架构 处理速度 精度指标
文本 RoPE位置编码 32k tokens/秒 困惑度2.1
图像 OryxViT-7B 8K图像0.4s mIoU 92.3%
视频 3D-CNN+Transformer 1080p@24fps实时 VideoQA 68.4%
音频 Whisper-v3+BEATs 实时流处理 WER 2.1%

3. 关键技术创新

  • 局部-全局注意力池化层:将4K图像特征压缩至256 tokens时保持98.7%信息完整性
  • 跨模态对齐损失函数:采用改进的CLIP损失,跨模态检索准确率提升19.2%
  • 流式语音解码器:基于CosyVoice架构,支持标点驱动的语句截断技术

五、如何使用Ola

  • Ola项目地址:https://ola-omni.github.io/
  • Ola论文:https://arxiv.org/abs/2502.04328
  • Ola代码:https://github.com/Ola-Omni/Ola
  • Ola模型:https://huggingface.co/THUdyh/Ola-7b

1. 克隆仓库:在终端中输入命令 git clone https://github.com/Ola-Omni/Ola,将 OLA 的代码仓库克隆到本地。

2. 安装依赖包:创建并激活 Python 虚拟环境,使用命令 conda create -n ola python=3.10 -yconda activate ola,然后升级 pip 并安装依赖包,命令为 pip install --upgrade pippip install -e .

3. 下载模型权重:从 HuggingFace 获取 OLA 模型权重,链接为 https://huggingface.co/THUdyh/Ola-7b

4. 下载音频编码器:从 HuggingFace 下载音频编码器权重 large-v3.ptBEATs_iter3_plus_AS2M_finetuned_on_AS2M_cpt2.pt,并将它们放置在 path/to/Ola/pretrained 目录下,链接为 https://huggingface.co/THUdyh/Ola_speech_encoders/tree/main

5. 运行推理脚本:根据不同的模态组合,运行相应的推理脚本。例如,对于文本与图像理解,使用命令 python3 inference/infer.py --image_path *.png,jpg --text user_instruction;对于文本与视频理解,使用命令 python3 inference/infer.py --video_path *.mp4 --text user_instruction;对于文本与音频理解,使用命令 python3 inference/infer.py --audio_path *.wav,mp3 --text user_instruction;对于音频与图像理解,使用命令 python3 inference/infer.py --audio_path *.png,jpg --audio_path *.wav,mp3

六、Ola适用场景

1. 多模态搜索与内容理解:支持文本 + 图像 + 音频 + 视频的统一搜索与分析,例如 AI 助手、高级问答系统等。

2. 智能交互与对话:支持流式语音解码,使语音助手更加智能,实时响应用户输入。

3. 视频和音频处理:用于智能字幕生成、视频内容理解、语音识别等任务。

4. 跨模态推理:在需要结合图像、音频、视频和文本的任务(如医疗影像分析、多媒体内容审核)中表现出色。

七、Ola vs. GPT-4o

特性 Ola GPT-4o
全模态支持 ✅ 文本+图像+视频+音频 ✅ 文本+图像+视频+音频
流式语音生成 ✅ 支持 ✅ 支持
开源 ✅ 计划完全开源 ❌ 未开源
训练方式 渐进式模态对齐 未公开

Ola 计划 完全开源,这意味着研究人员可以自由使用、优化和部署,而 GPT-4o 仍然是一个封闭的商业模型。

© 版权声明

相关文章

暂无评论

Avatar photo
暂无评论...