DeepSeek V3:开源MoE模型全面指南,性能媲美GPT-4o与Claude

AI项目1个月前发布 MeoAI
10.3K 0

DeepSeek V3是什么

DeepSeek V3是由深度求索公司于2024年12月26日推出的一款全新发布的自研混合专家(MoE)模型,旨在突破当前大语言模型的性能瓶颈,该模型目前已开源,可以在线使用,也可以本地部署。该模型拥有6710亿参数,激活参数370亿,并在14.8万亿token上进行了预训练,DeepSeek-V3还率先采用了无辅助损失的负载均衡策略,并设置了多令牌预测训练目标,以增强模型性能。。DeepSeek V3在多项评测中超越了其他开源模型,并在性能上与世界顶尖的闭源模型相媲美。

DeepSeek V3:开源MoE模型全面指南,性能媲美GPT-4o与Claude

DeepSeek V3的功能特色

  • 领先的性能表现:DeepSeek V3在知识类任务、长文本处理、代码生成和数学推理等多个领域展示出顶尖的性能。
  • 卓越的中文能力:在中文任务中表现突出,尤其在C-Eval教育类测评和C-SimpleQA知识类任务中,展现了其对中文的深刻理解和处理能力。
  • 三倍提升的生成速度:通过算法和工程上的优化,DeepSeek V3在生成吐字速度上实现了从20 TPS到60 TPS的三倍提升。
  • 开源与本地部署:DeepSeek V3开源了原生FP8权重,并支持社区和开发者进行本地部署。

DeepSeek-V3模型的设计和训练

DeepSeek-V3是一个强大的混合专家(MoE)语言模型,拥有6710亿个参数,每次激活37亿个参数。这个模型在架构上进行了创新,采用了一种新的负载均衡策略,这种策略不依赖于辅助损失,能够减少因负载均衡而导致的性能下降。此外,研究者们还探索了多令牌预测(MTP)目标,发现它对模型性能有积极影响,并且可以用于加速推理过程中的推测性解码。

在预训练阶段,DeepSeek-V3采用了FP8混合精度训练框架,这是首次在如此大规模的模型上验证FP8训练的可行性和有效性。通过算法、框架和硬件的协同设计,研究者们克服了跨节点MoE训练中的通信瓶颈,几乎实现了完全的计算-通信重叠,这大大提高了训练效率并降低了成本。仅用了2.664M H800 GPU小时,就完成了在14.8万亿个token上的预训练,创造了目前最强的开源基础模型。而且,预训练之后的后续训练阶段仅需要额外的0.1M GPU小时。

后训练阶段,DeepSeek-V3引入了一种新的方法,从长链思考(CoT)模型,特别是DeepSeek R1系列模型中蒸馏出推理能力,并将这些能力整合到标准的LLM中,尤其是DeepSeek-V3。这一流程不仅提高了模型的推理性能,而且还保持了对输出风格和长度的控制。

总的来说,MeoAI觉得DeepSeek-V3在模型架构、训练效率和推理能力上都展现出了显著的进步和创新。

DeepSeek V3的性能评测

DeepSeek-V3是一个具有6710亿参数的混合专家(MoE)模型,每次激活370亿参数。它在多个评测集上的表现超越了其他开源模型,如Qwen2.5-72B和Llama3.1-405B,并且在某些领域与顶级闭源模型GPT-4o和Claude-3.5-Sonnet相当。

DeepSeek V3:开源MoE模型全面指南,性能媲美GPT-4o与Claude

英文评测表现

在英文评测中,DeepSeek-V3在MMLU (EM)上达到了88.5%的准确率,略高于Qwen2.5的85.3%和Llama3.1的88.6%,但略低于Claude-3.5-Sonnet的88.9%。在MMLU-Redux (EM)上,DeepSeek-V3以89.1%的准确率领先所有模型。在MMLU-Pro (EM)上,DeepSeek-V3的75.9%准确率低于Claude-3.5-Sonnet的78%。在DROP (3-shot F1)评测中,DeepSeek-V3以91.6%的准确率显著领先。

代码评测表现

在代码评测中,DeepSeek-V3在HumanEval-Mul (Pass@1)上达到了82.6%的准确率,与Claude-3.5-Sonnet的81.7%相当,但低于GPT-4o的80.5%。在LiveCodeBench (Pass@1-COT)上,DeepSeek-V3以40.5%的准确率领先,显示出其在代码生成和理解方面的强大能力。

数学评测表现

在数学评测中,DeepSeek-V3在AIME 2024 (Pass@1)上以39.2%的准确率领先,远高于其他模型。在MATH-500 (EM)上,DeepSeek-V3以90.2%的准确率领先,显示出其在数学问题解决方面的卓越能力。

中文评测表现

在中文评测中,DeepSeek-V3在CLUEWSC (EM)上以90.9%的准确率与Qwen2.5-72B并列第一。在C-Eval (EM)上,DeepSeek-V3以86.5%的准确率领先,显示出其在中文教育类测评中的优异表现。在C-SimpleQA (Correct)上,DeepSeek-V3以64.1%的准确率领先,进一步证明了其在中文事实知识处理方面的优势。

长文本评测表现

在长文本评测中,DeepSeek-V3在DROP (3-shot F1)上以91.6%的准确率领先,显示出其在处理长文本信息时的优越性能。

DeepSeek-V3在多个评测集上展现出了卓越的性能,特别是在英文、代码、数学和中文处理方面。它在知识类任务、长文本处理、算法类代码场景以及数学问题解决上的表现尤为突出,与顶级闭源模型相比也毫不逊色。这些评测结果证明了DeepSeek-V3在语言理解和生成方面的先进性,以及其在多种语言和任务中的广泛应用潜力。

DeepSeek V3的定价信息或价格

DeepSeek V3的API服务价格调整为每百万输入tokens 0.5元(缓存命中)/ 2元(缓存未命中),每百万输出tokens 8元。为了庆祝新模型发布,官方为新模型设置了长达45天的优惠价格体验期,在此期间内,价格为每百万输入tokens 0.1元(缓存命中)/1元(缓存未命中),每百万输出tokens 2元。

DeepSeek V3模型下载

Model #Total Params #Activated Params Context Length Download
DeepSeek-V3-Base 671B 37B 128K 🤗 HuggingFace
DeepSeek-V3 671B 37B 128K 🤗 HuggingFace

如何使用DeepSeek V3

用户可以通过以下三种方式体验DeepSeek V3模型:

  • 在线体验:登录DeepSeek官网chat.deepseek.com即可在线使用,还可体验联网搜索和推理模式。
  • API调用:DeepSeek提供API接口,方便有定制化需求的用户使用。
  • 本地部署:本地部署的灵活性更高,可完全控制,适用于对性能、安全性、隐私有较高要求的用户。

使用DeepSeek-Infer Demo进行推理(示例)

模型权重和演示代码准备

  1. 克隆DeepSeek-V3的GitHub仓库:
    git clone https://github.com/deepseek-ai/DeepSeek-V3.git
  2. 进入inference目录并安装requirements.txt中列出的依赖:
    cd DeepSeek-V3/inference
    pip install -r requirements.txt
  3. 从HuggingFace下载模型权重,并将它们放入/path/to/DeepSeek-V3文件夹。

模型权重转换

  1. 将HuggingFace模型权重转换为特定格式:
    python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

运行

  1. 使用以下命令与DeepSeek-V3进行交互式聊天:
    torchrun --nnodes 2 --nproc-per-node 8 generate.py --node-rank $RANK --master-addr $ADDR --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200
  2. 或者对给定文件进行批量推理:
    torchrun --nnodes 2 --nproc-per-node 8 generate.py --node-rank $RANK --master-addr $ADDR --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

使用SGLang进行推理(推荐)

SGLang v0.4.1支持MLA优化、FP8(W8A8)、FP8 KV缓存和Torch Compile,提供最先进的延迟和吞吐量性能。SGLang v0.4.1完全支持在NVIDIA和AMD GPU上运行DeepSeek-V3。具体启动指令请访问SGLang GitHub页面

使用LMDeploy进行推理(推荐)

LMDeploy是一个灵活且高性能的推理和服务框架,专为大型语言模型量身定制,现在支持DeepSeek-V3。它提供离线管道处理和在线部署能力,并与基于PyTorch的工作流程无缝集成。具体步骤请参考LMDeploy GitHub页面

使用TRT-LLM进行推理(推荐)

TensorRT-LLM现在支持DeepSeek-V3模型,提供BF16和INT4/INT8权重选项。FP8支持正在进行中,即将发布。你可以通过TensorRT-LLM GitHub页面访问专门为DeepSeek-V3支持的定制分支。

使用vLLM进行推理(推荐)

vLLM v0.6.6支持在NVIDIA和AMD GPU上进行FP8和BF16模式的DeepSeek-V3推理。vLLM除了标准技术外,还提供流水线并行,允许你在通过网络连接的多台机器上运行此模型。具体指导请参考vLLM指南

与AMD GPU配合使用的推荐推理功能

与AMD团队合作,我们使用SGLang实现了对AMD GPU的Day-One支持,完全兼容FP8和BF16精度。具体指导请参考SGLang指南

与华为Ascend NPUs配合使用的推荐推理功能

华为Ascend社区的MindIE框架已成功适配DeepSeek-V3的BF16版本。具体步骤请按照Ascend NPUs指南操作。

以上步骤提供了多种使用DeepSeek-V3进行推理的方法,你可以根据你的硬件环境和需求选择合适的方法。

DeepSeek V3的适用场景

  • 教育培训:DeepSeek V3可以作为个性化学习助手,根据学生的学习进度和情况提供即时解答和辅导。
  • 内容创作:写作和内容创作者可以用DeepSeek V3获取灵感、生成内容大纲或进行文本润色。
  • 科研探索:研究人员可以用DeepSeek V3进行数据分析、模式识别等复杂的科研任务。
  • 产品开发:通过DeepSeek API,开发者可以将DeepSeek V3的AI功能无缝集成到各种应用和产品中,增强其智能化水平。
  • 信息检索:DeepSeek V3旨在革新现有的搜索引擎理念,将其从单纯的“答案引擎”转变为更强大的“检索引擎”。
© 版权声明

相关文章

暂无评论

Avatar photo
暂无评论...