阿里开源Qwen2.5-VL-32B,第二大视觉语言模型更聪明

AI快讯1个月前更新 MeoAI
248 0

阿里通义千问团队于 2025 年 3 月 25 日深夜开源的 Qwen2.5-VL-32B-Instruct 模型,在视觉推理和多模态能力上实现了突破性升级。阿里通义Qwen官网显示,Qwen2.5-VL-32B-Instruct被其成为 “第二大视觉语言模型”,相比此前发布的 Qwen2.5-VL 系列模型,本次推出的32B模型回复更符合人类主观偏好:调整了输出风格,使回答更加详细、格式更规范,并更符合人类偏好。这一版本不仅在技术架构上进行了深度优化,更通过参数规模与任务适配的精准平衡,展现出 “小模型超越大模型” 的独特优势。

Qwen2.5-VL-32B

视觉推理能力的全面跃升

Qwen2.5-VL-32B 的核心突破体现在多模态深度理解与逻辑推理两大维度:

  • 细粒度图像解析
    Qwen2.5-VL-32B模型采用动态分辨率视觉编码器,可直接处理任意尺寸图像而无需缩放,结合 M-ROPE(多模态旋转位置编码)技术,实现了对空间位置信息的精准捕捉。例如在交通指示牌分析任务中,模型能识别限速标志(100km/h)、时间(12:00)、距离(110 公里)等关键要素,并通过公式推导(110 公里 / 1 小时 = 110km/h > 限速 100km/h)得出 “无法按时到达” 的结论。这种能力已超越传统 OCR 识别,进入 “视觉 – 逻辑” 联合推理阶段。
  • 复杂数学推理
    针对几何证明、代数运算等任务,Qwen2.5-VL-32B模型通过强化学习优化了数学解题框架。在几何题中,模型能自动识别角平分线、对顶角等几何关系,分步骤推导出∠EOB=80° 的结论;在数列规律题中,可通过归纳法发现 “每增加一层,总块数增加层数平方” 的规律。这种能力在 MathVista 等基准测试中达到 70.5 分,超过 72B 版本的 67.7 分。
  • 长视频事件定位
    Qwen2.5-VL-32B模型支持 1 小时以上的长视频理解,通过动态帧率训练和绝对时间编码,能精准定位视频中的关键事件。例如在教学视频中,可快速跳转至 “勾股定理证明” 片段并生成要点总结。
  • 动态分辨率原生支持
    Qwen2.5-VL-32B模型采用二维旋转位置编码(2D-RoPE),突破传统固定分辨率限制,可直接处理任意尺寸图像(如 4K 分辨率医学影像),并通过绝对时间编码实现 1 小时以上长视频的精准事件定位(如教学视频中 “第 25 分 15 秒的实验操作错误”)。这一技术架构被国际顶会论文引用超 200 次,被视为继 CLIP 之后的第二代视觉语言模型核心范式。

Qwen2.5-VL-32B项目地址

32B版本的 “反直觉” 优势

传统认知中参数规模与性能成正比,但 Qwen2.5-VL-32B 通过三大创新实现了对 72B 版本的超越:

  • 强化学习优化
    采用 PPO(近端策略优化)框架对模型输出进行微调,使回答更符合人类偏好。例如在多轮对话中,模型会主动拆分问题步骤、使用规范格式(如分点说明),而 72B 版本仍存在回答冗长、结构松散的问题。
  • 架构轻量化设计
    视觉编码器仅保留 4 层全注意力层,其余层采用窗口注意力机制,减少 60% 计算量的同时保持原生分辨率处理能力。这种设计使 32B 版本在本地 RTX 4090 显卡上即可流畅运行,而 72B 版本需多卡并行。
  • 任务适配性增强
    在 MM-MT-Bench(多模态用户体验基准)中,32B 版本通过引入 “快速思考” 模式,在主观评分上超越 72B 版本 15%。例如在医疗影像诊断任务中,32B 会优先关注病灶特征并给出简明结论,而 72B 可能陷入无关细节。

性能对比与行业影响

基准测试 Qwen2.5-VL-32B Qwen2.5-VL-72B 前代 Qwen2-VL-72B
MMMU(多模态) 64.5 63.2 58.3
MathVista 70.5 67.7 63.8
MM-MT-Bench 71.7 65.5 63.4

从行业视角看,32B 版本的开源将推动多模态 AI 的三大变革:

  1. 端侧部署普及:32B 模型可在消费级 GPU 运行,使中小企业能低成本构建视觉问答系统。
  2. 垂直领域深耕:在金融(票据解析)、教育(数学解题)、医疗(影像分析)等领域,32B 的性价比优势显著。
  3. 技术路线转向:打破 “参数越大越好” 的固有思维,为模型效率优化提供新范式。

Qwen2.5-VL-32B性能评测结果,和其他模型更全面的对比

Dataset Qwen2.5-VL-3B
(🤗🤖)
Qwen2.5-VL-7B
(🤗🤖)
Qwen2.5-VL-32B
(🤗🤖)
Qwen2.5-VL-72B
(🤗🤖)
Gemini-2 Flash GPT-4o Claude3.5 Sonnet Qwen2-VL 72B
MMMU 53.1 58.6 70.0 70.2 70.7 70.3 70.4 64.5
MMMU Pro 31.6 38.3 49.5 51.1 57 54.5 54.7 46.2
DocVQA 93.9 95.7 94.8 96.4 92.1 91.1 95.2 96.5
InfoVQA 77.1 82.6 83.4 87.3 77.8 80.7 74.3 84.5
CC-OCR 74.5 77.8 77.1 79.8 73.0 66.6 62.7 68.7
OCRBenchV2 54.3/52.1 56.3/57.2 57.2/59.1 61.5/63.7 46.5/32.3 45.2/39.6 47.8/46.1
MegaBench 28.9 36.8 51.3 55.2 54.2 52.1 46.8
MMStar 55.8 63.9 69.5 70.8 69.4 64.7 65.1 68.3
MMBench1.1 81.5 84.3 84.6 88.0 83.0 82.1 83.4 86.6
MathVista 62.3 68.2 74.7 74.8 73.1 63.8 65.4 70.5
MathVision 21.2 25.1 38.4 38.1 41.3 30.4 38.3 25.9
VideoMME 61.5/67.6 65.1/71.6 70.5/77.9 73.3/79.1 -/- 71.9/77.2 60/62.9 71.2/77.8
MMBench-Video 1.63 1.79 1.93 2.02 1.68 1.38 1.7
LVBench 43.3 45.3 49.0 47.3 30.8
CharadesSTA 38.8 43.6 54.2 50.9 35.7
AITZ 76.9 81.9 83.1 83.2 35.3
Android Control 63.7/90.8 60.1/91.4 69.6/93.3 67.36/93.7 66.4/84.4
ScreenSpot 55.5 84.7 88.5 87.1 84.0 18.1 83.0
ScreenSpot Pro 23.9 29.0 39.4 43.6 17.1
AndroidWorld 22.0 35 34.5(SoM) 27.9
OSWorld 5.92 8.83 5.03 14.9

总结

2025 年1月28日,阿里通义千问团队正式开源了 Qwen2.5-VL 系列多模态模型,推出 3B、7B 和 72B 三个参数规模版本,以满足从移动端到高性能服务器的多样化部署需求。该系列在保持前代技术优势的基础上,通过架构创新与强化学习优化实现了性能与效率的突破性平衡。而现在最新开源的Qwen2.5-VL-32B版本通过 PPO 强化学习和轻量化设计,在 MathVista 等数学推理基准中超越 72B 版本,展现出小模型的独特优势;3B 版本则通过动态分辨率视觉编码器和窗口注意力机制,实现了在手机等端侧设备上的实时物体检测与 AR 导航能力。

© 版权声明

相关文章

暂无评论

Avatar photo
暂无评论...