DeepSeek R1是什么
DeepSeek团队最近向公众介绍了他们的第一代推理模型:DeepSeek-R1-Zero和DeepSeek-R1。这些模型的开发和发布代表了在人工智能推理领域的一个重大进步。

DeepSeek-R1-Zero
DeepSeek-R1-Zero是一个利用大规模强化学习(RL)训练而成的模型,它没有采用监督微调(SFT)作为训练的前置步骤。这种训练方式使得DeepSeek-R1-Zero在推理任务上展现出了卓越的性能,并自然地发展出了许多强大且有趣的推理行为。尽管如此,DeepSeek-R1-Zero也面临着一些挑战,例如无休止的重复输出、可读性差和语言混杂等问题。
DeepSeek-R1
为了解决这些问题并进一步提升推理性能,DeepSeek团队推出了DeepSeek-R1。与DeepSeek-R1-Zero不同,DeepSeek-R1在进行强化学习之前引入了冷启动数据。这一改进使得DeepSeek-R1在数学、代码和推理任务上的表现与OpenAI的o1模型相当。此外,为了支持研究社区,DeepSeek团队开源了DeepSeek-R1-Zero、DeepSeek-R1以及从DeepSeek-R1基于Llama和Qwen蒸馏出的六个密集模型。特别值得一提的是,DeepSeek-R1-Distill-Qwen-32B在各种基准测试中超越了OpenAI-o1-mini,为密集模型创造了新的最佳性能记录。
DeepSeek R1 是旨在通过大规模强化学习(RL)技术提升模型在数学、代码生成和自然语言推理等任务上的表现。该模型采用了独特的训练架构,通过引入冷启动数据和强化学习,有效解决了语言混合、可读性差等问题。此外,DeepSeek R1 遵循 MIT 开源协议,允许用户进行商业使用和模型蒸馏。
DeepSeek R1系列模型有哪些,他们有什么区别?
- DeepSeek-R1-Zero:这是一个完全通过大规模强化学习(RL)训练的模型,没有使用监督微调(SFT)作为前置步骤。这种方法使得DeepSeek-R1-Zero在推理任务上展现出了卓越的性能,并自然地发展出了许多强大且有趣的推理行为。然而,它也面临一些挑战,例如无休止的重复、可读性差和语言混杂。
- DeepSeek-R1:为了解决DeepSeek-R1-Zero面临的挑战并进一步提升推理性能,DeepSeek团队推出了DeepSeek-R1。这个模型在强化学习之前引入了冷启动数据,其在数学、代码和推理任务上的表现与OpenAI的o1模型相当。
- DeepSeek-R1-Distill 模型:DeepSeek团队还开源了基于Llama和Qwen蒸馏出的六个密集模型,包括1.5B、7B、8B、14B、32B和70B的模型。这些模型是通过将大型模型的推理模式蒸馏到小型模型中得到的,从而在较小的模型规模下实现了更好的性能。特别是DeepSeek-R1-Distill-Qwen-32B,在各种基准测试中超越了OpenAI-o1-mini,为密集模型创造了新的最佳性能记录。
这些模型的主要区别在于它们的训练方法和规模。DeepSeek-R1-Zero完全依赖于强化学习,而DeepSeek-R1在强化学习之前引入了冷启动数据。DeepSeek-R1-Distill模型则是通过模型蒸馏技术,将大型模型的推理能力迁移到更小型的模型中,以实现在资源受限的环境中部署高效能模型的目的。通过这种方式,DeepSeek团队不仅推动了技术的进步,也为研究社区提供了宝贵的资源和工具。
DeepSeek R1的主要功能
- 强大的推理能力:DeepSeek R1 在数学推理(如 GSM8K 数据集)和代码生成(如 CodeX 数据集)等任务上表现优异,性能与 OpenAI 的 o1 正式版相当。
- 长链思维(CoT)生成:模型能够生成长链思维路径,用于解决复杂问题,并支持自验证和反思功能。
- 多任务支持:涵盖数学、代码生成、自然语言理解等多种任务,适用于教育、软件开发、数据分析和问答系统等场景。
- 开源与模型蒸馏:DeepSeek R1 开源了模型权重,并提供了多个蒸馏版本(如 32B 和 70B 模型),这些蒸馏模型在性能上超越了 OpenAI 的 o1-mini。
DeepSeek R1模型训练、开发和蒸馏
后训练:在基础模型上进行大规模强化学习
DeepSeek团队直接在基础模型上应用强化学习(RL),而不依赖于监督微调(SFT)作为前置步骤。这种方法使模型能够探索用于解决复杂问题的思维链(CoT),从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长思维链的能力,这标志着研究社区的一个重要里程碑。值得注意的是,这是首次公开研究验证,通过纯粹的强化学习(无需SFT)可以激励大型语言模型(LLMs)的推理能力,为该领域的未来发展铺平了道路。
开发流程
DeepSeek团队介绍了开发DeepSeek-R1的流程。该流程包含两个强化学习阶段,旨在发现更好的推理模式并与人类偏好对齐,以及两个SFT阶段,作为模型推理和非推理能力的种子。这一流程有望通过创造更好的模型而惠及整个行业。
蒸馏:小模型也可以很强大
DeepSeek团队证明了大型模型的推理模式可以被蒸馏到小模型中,从而比通过在小模型上进行强化学习发现的推理模式表现更好。开源的DeepSeek-R1及其API将有助于研究社区在未来蒸馏出更好的小模型。利用DeepSeek-R1生成的推理数据,DeepSeek团队微调了研究社区广泛使用的几种密集模型。评估结果表明,这些蒸馏后的小型密集模型在基准测试中表现出色。DeepSeek团队基于Qwen2.5和Llama3系列开源了1.5B、7B、8B、14B、32B和70B的蒸馏检查点,供社区使用。
总的来说,DeepSeek团队在推理模型的开发上做出了显著的贡献,他们的工作不仅推动了技术的进步,也为研究社区提供了宝贵的资源和工具。随着这些模型和工具的开源,我们可以期待在人工智能推理领域看到更多的创新和突破。
DeepSeek R1的定价信息
DeepSeek R1 提供 API 接口服务,定价策略如下:
- 输入 tokens:每百万输入 tokens 定价为 1 元(缓存命中)或 4 元(缓存未命中)。
- 输出 tokens:每百万输出 tokens 定价为 16 元。 此外,DeepSeek R1 的开源模型可在 Hugging Face 平台免费下载和使用。
DeepSeek-R1系列模型下载
DeepSeek-R1 模型下载
Model | #Total Params | #Activated Params | Context Length | Download |
---|---|---|---|---|
DeepSeek-R1-Zero | 671B | 37B | 128K | 🤗 HuggingFace |
DeepSeek-R1 | 671B | 37B | 128K | 🤗 HuggingFace |
DeepSeek-R1-Distill 模型下载
Model | Base Model | Download |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | 🤗 HuggingFace |
如何使用DeepSeek R1
(一)在线体验
用户可以通过访问 DeepSeek 官方网站或下载官方 App,打开“深度思考”模式,直接调用 DeepSeek R1 完成各类推理任务。
(二)API 调用
对于开发者和技术用户,DeepSeek 提供了与 OpenAI 兼容的 API 接口,方便将 DeepSeek-R1 的能力集成到各种应用程序中。API 平台的详细信息如下:
- 网址:访问 platform.deepseek.com。
- API 使用:
- DeepSeek 的 API 平台支持与 OpenAI 类似的接口调用方式,用户可以轻松地将现有的 OpenAI 集成切换到 DeepSeek-R1。
- 在 API 调用中,设置
model=DeepSeek-R1
或其他相关模型参数,即可使用 DeepSeek-R1 的推理能力。 - 详细的 API 文档和调用示例可在 platform.deepseek.com 上找到,帮助开发者快速上手。
(三)DeepSeek R1本地部署
DeepSeek-R1 模型
请访问 DeepSeek-V3 部署教程以获取更多关于本地运行 DeepSeek-R1 的信息。
DeepSeek-R1-Distill 模型
DeepSeek-R1-Distill 模型的使用方式与 Qwen 或 Llama 模型相同。
例如,您可以使用 vLLM 轻松启动服务:
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
您也可以使用 SGLang 启动服务:
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
使用建议
-
将temperature设置在 0.5-0.7 范围内(推荐 0.6),以避免无休止的重复或不连贯的输出。
-
不要添加系统提示prompt,所有指令都应包含在用户提示prompt中。
-
对于数学问题,建议在提示中加入指令prompt,例如:“将最终答案放在 \boxed{} 中”。
-
在评估模型性能时,建议进行多次测试并取平均值
DeepSeek R1的性能评测

1. AIME 2024 (Pass@1)
测试内容:AIME 2024 是一个数学竞赛测试,旨在评估参赛者解决复杂数学问题的能力。 测试目的:衡量模型在解决高级数学问题上的表现。
- DeepSeek-R1 表现:准确率为 79.8%,在所有模型中排名第二,仅次于 OpenAI-o1-1217 的 79.2%,显示出 DeepSeek-R1 在处理高级数学问题上的强大能力。
-
OpenAI-o1-1217:准确率为 79.2%,在这一评测中表现最佳。
-
DeepSeek-R1-32B 和 DeepSeek-V3:准确率分别为 72.6% 和 63.6%,显示出随着模型规模的减小,性能有所下降。
2. Codeforces (Percentile)
-
DeepSeek-R1 表现:百分位评测中达到了 96.3%,仅次于 OpenAI-o1-1217 的 96.6%,显示出 DeepSeek-R1 在编程问题解决上的卓越性能。
-
OpenAI-o1-1217:以 96.6% 的百分位领先,显示出其在代码竞赛问题上的强大能力。
-
DeepSeek-R1-32B 和 DeepSeek-V3:分别为 90.6% 和 93.4%,虽然低于 DeepSeek-R1 和 OpenAI-o1-1217,但仍然表现良好。
3. GPQA Diamond (Pass@1)
-
DeepSeek-R1 表现:准确率为 71.5%,是所有模型中表现最好的,显示出 DeepSeek-R1 在问答任务上的优势。
-
OpenAI-o1-1217:准确率为 75.7%,略低于 DeepSeek-R1。
-
DeepSeek-R1-32B 和 DeepSeek-V3:准确率分别为 62.1% 和 60.0%,显示出在这一特定任务上,较小的模型规模影响了性能。
4. MATH-500 (Pass@1)
- DeepSeek-R1 表现:准确率为 97.3%,在所有模型中表现最佳,显示出 DeepSeek-R1 在数学问题解决上的卓越能力。
-
OpenAI-o1-1217:准确率为 96.4%,紧随其后。
-
DeepSeek-R1-32B 和 DeepSeek-V3:准确率分别为 94.3% 和 90.0%,显示出在数学问题上,DeepSeek-R1 的优势。
5. MMLU (Pass@1)
- DeepSeek-R1 表现:准确率为 90.8%,在所有模型中表现最佳,显示出 DeepSeek-R1 在多任务语言理解上的广泛适用性和高效性。
-
OpenAI-o1-1217:准确率为 91.8%,略高于 DeepSeek-R1。
-
DeepSeek-R1-32B 和 DeepSeek-V3:准确率分别为 87.4% 和 85.2%,显示出在多任务处理上,DeepSeek-R1 的强大能力。
6. SWE-bench Verified (Resolved)
- DeepSeek-R1 表现:解决率为 49.2%,在所有模型中表现最佳,显示出 DeepSeek-R1 在软件工程问题解决上的优势。
-
OpenAI-o1-1217:解决率为 48.9%,略低于 DeepSeek-R1。
-
DeepSeek-R1-32B 和 DeepSeek-V3:解决率分别为 36.8% 和 41.6%,显示出在软件工程问题上,DeepSeek-R1 的优势。
DeepSeek R1项目各平台地址
- 官方网站:www.deepseek.com。
- GitHub 仓库:github.com/deepseek-ai/DeepSeek-R1。
- Hugging Face 模型库:huggingface.co/deepseek-ai/DeepSeek-R1。
- 魔搭社区:www.modelscope.cn/models/deepseek-ai/DeepSeek-R1。
DeepSeek R1开源许可协议
代码仓库和模型权重均遵循 MIT 许可证。DeepSeek-R1 系列支持商业使用,允许进行任何修改和衍生作品,包括但不限于用于训练其他 LLM 的蒸馏。请注意:
- DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B 和 DeepSeek-R1-Distill-Qwen-32B 源自 Qwen-2.5 系列,最初遵循 Apache 2.0 许可证,现已使用 DeepSeek-R1 筛选的 800k 样本进行了微调。
- DeepSeek-R1-Distill-Llama-8B 源自 Llama3.1-8B-Base,最初遵循 Llama3.1 许可证。
- DeepSeek-R1-Distill-Llama-70B 源自 Llama3.3-70B-Instruct,最初遵循 Llama3.3 许可证。