DeepSeek-V3评测首次登顶榜单,官方正式发公告

AI快讯1个月前发布 MeoAI
235 0

中国人工智能公司深度求索(DeepSeek)于 2025年3月24日发布的DeepSeek-V3-0324 模型,在多项国际权威评测中表现突出,首次登顶非推理模型榜单

DeepSeek-V3-0324性能评测

DeepSeek V3登顶排行榜

Artificial Analysis 评测

3 月 25 日,专业 AI 评测机构 Artificial Analysis 发布报告称,DeepSeek-V3-0324 在非推理模型基准测试中跃升 7 位,首次登顶。尽管其综合能力仍落后于推理模型(如 Claude 3.7 Sonnet),但在速度与成本上展现出显著优势:

  • 响应速度:非推理模型无需 “思考” 过程,可直接输出结果,适用于实时交互场景。
  • 性价比:输入价格仅为 Claude 3.7 Sonnet 的 1/11、GPT-4.5 的 1/277,且支持错峰时段 5 折优惠。

Kcores 大模型竞技场

在代码生成测试中,DeepSeek-V3-0324 得分328.3 分,仅次于 Claude 3.7 Sonnet(334.8 分),超越 OpenAI o1、Gemini-2.0-Pro 等推理模型。值得注意的是,该模型在 “九大行星模拟” 测试中成为唯一能绘制土星环的模型,凸显其复杂场景处理能力。

其他榜单表现

  • MMLU-Pro:从 75.9% 提升至 81.2%,超越 Claude 3.5 Sonnet。
  • AIME 2024:数学竞赛得分从 39.6% 跃升至 59.4%,接近人类竞赛选手水平。
  • SuperCLUE:在 3 月报告中位列国内基础模型第四,虽未登顶,但在代码与数学任务上超越多数开源模型。

DeepSeek官方发布公告说明更新情况

DeepSeek官方公告说明该版本通过小版本迭代实现了多维度能力提升。在推理任务方面,模型借鉴 DeepSeek-R1 的强化学习技术,显著提升了数学、代码类任务表现,得分超越 GPT-4.5。前端开发能力进一步优化,生成的 HTML 代码可用性更高且视觉效果更具设计感。

中文写作任务基于 R1 的基础进行优化,中长篇文本质量显著提升。联网搜索场景下,报告生成的内容详实度和排版美观度均有改善。此外,工具调用、角色扮演等交互能力也得到增强。

模型参数规模保持 660B,开源版本支持 128K 上下文长度(官方平台提供 64K),延续 MIT 许可证并允许商业用途。用户可通过关闭 “深度思考” 选项体验新版本,API 接口保持不变。此次更新未涉及基础模型架构调整,仅优化了后训练方法,私有化部署时只需更新检查点和工具调用配置文件。

© 版权声明

相关文章

暂无评论

Avatar photo
暂无评论...