阿里半夜发布并开源了通义千问 QwQ-32B 推理模型,尽管仅有 320 亿参数,却能在性能上与拥有 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1 满血版相媲美,甚至在部分测试中表现更优。
那么QwQ-32B是什么?
QwQ-32B 是阿里巴巴通义千问团队于 2025 年 3 月推出的新一代开源大语言模型,其核心突破在于以仅 320 亿参数规模(约为 DeepSeek-R1 的 1/21)实现了与超大规模模型相媲美的推理能力。该模型通过创新的强化学习策略,在数学推理、代码生成及通用任务处理方面展现出显著优势,其技术路径打破了 “参数规模决定性能” 的传统认知。

QwQ-32B官方项目地址,现在已经可以在 QwenChat上体验QwQ-32B模型了。
QwQ-32B的核心亮点
- 参数效率革命:通过分阶段强化学习训练,QwQ-32B 在数学推理(AIME24 评测)、代码能力(LiveCodeBench)等领域与 DeepSeek-R1(6710 亿参数)表现相当,部分场景如多轮对话(IFEval)和工具调用(BFCL)甚至实现反超。
- 技术路径创新:采用 “冷启动 + 双阶段 RL” 策略,QwQ-32B 初期聚焦数学 / 编程任务的精准反馈(答案校验 + 代码执行测试),后期通过通用奖励模型扩展综合能力,实现了训练效率与性能的双重优化。
- 部署友好性:无需分布式集群即可在消费级显卡(如 RTX 4090)甚至苹果笔记本上流畅运行,QwQ-32B 推理成本仅为同类模型的 1/10,显著降低了企业级应用门槛。
- 开源生态价值:QwQ-32B 以 Apache 2.0 协议开源,推动行业从 “暴力堆参数” 转向 “算法优化驱动” 的技术范式,为中小团队参与大模型竞争提供了新可能。
QwQ-32B性能表现
- 数学推理:在测试数学能力的 AIME24 评测集上,QwQ-32B与 DeepSeek-R1 表现相当,远超 o1-mini 及相同尺寸的 R1 蒸馏模型。
- 代码能力:在评估代码能力的 LiveCodeBench 中,QwQ-32B 的表现同样与 DeepSeek-R1 相当。
- 通用能力:在由 Meta 首席科学家杨立昆领衔的 “最难 LLMs 评测榜” LiveBench、谷歌等提出的指令遵循能力 IFEval 评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的 BFCL 测试中,QwQ-32B 的得分均超越了 DeepSeek-R1。

QwQ-32B技术突破
QwQ-32B 的成功主要得益于阿里团队采用的大规模强化学习方法。他们在冷启动基础上开展了分阶段强化学习训练策略:
- 初始阶段:重点针对数学和编程任务进行 RL 训练。团队摒弃了传统的奖励模型 (reward model),转而采用更直接的验证方式,QwQ-32B通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。
- 扩展阶段:增加了针对通用能力的 RL 训练。QwQ-32B这一阶段使用通用奖励模型和基于规则的验证器,帮助模型在保持数学和编程能力的同时,提升其他通用能力。
研究表明,随着 RL 训练轮次的增加,QwQ-32B模型在数学和编程领域的性能均呈现持续提升趋势,印证了这种方法的有效性。
QwQ-32B成本与部署
QwQ-32B 不仅性能强劲,还大幅降低了部署使用成本。在消费级显卡上也能实现本地部署,而 DeepSeek-R1 满血版需要专业服务器提供算力支持。此外,QwQ-32B 已采用宽松的 Apache2.0 协议开源,所有人都可免费下载及商用,而 DeepSeek-R1 满血版的使用成本相对较高。
总结
阿里通义千问 QwQ-32B 推理模型以仅 320 亿的参数,通过创新的强化学习方法,在性能上达到了与 DeepSeek-R1 满血版相当甚至更优的水平,同时在成本和部署便利性上具有显著优势。这一成果不仅展示了阿里在 AI 领域的技术实力,也为行业提供了一种在参数规模有限的情况下提升模型能力的新范式。