当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > DeepSeek-R1 最新发布，剑指 OpenAI o1

DeepSeek-R1 最新发布，剑指 OpenAI o1

2025-01-22 18:42:44 0浏览收藏

IT行业相对于一般传统行业，发展更新速度更快，一旦停止了学习，很快就会被行业所淘汰。所以我们需要踏踏实实的不断学习，精进自己的技术，尤其是初学者。今天golang学习网给大家整理了《DeepSeek-R1 最新发布，剑指 OpenAI o1》，聊聊，我们一起来看看吧！

昨日 1 月20 号，DeepSeek 团队推出了全新开源模型 DeepSeek-R1，一夜之间模型就在 Github 上收获了 4k+star，引爆大模型领域。

而这次的 R1 模型一出，不仅反驳了之前蒸馏 OpenAI o1 的说法，官方更是直接下场表示：“我们可以和开源版的 o1 打成平手”。

值得一提的是， R1 突破了以往的模型训练形式，完全没有使用任何 SFT 数据，仅通过纯粹的 RL 来训练模型，这一点说明 R1 已经学会了自己思考问题——这实则更符合人类的思维规则。

DeepSeek-R1 最新发布，剑指 OpenAI o1

更有网友称其为“开源的 LLM 界 AlphaGo”。

DeepSeek-R1 最新发布，剑指 OpenAI o1

OpenAI，你的“强”来了

叫板 o1，Deepseek 的自信并不是空穴来风。

先是在在后训练阶段凭借凭借有限的数据直接在模型推理能力方面把 o1 甩了几条街。

DeepSeek-R1 最新发布，剑指 OpenAI o1

并且在数学、代码、自然语言推理上更是和 o1 正式版不相上下，在多个基准测试中展现了卓越的性能。

例如 DeepSeek - R1 在 AIME 2024 数学竞赛中，取得了79.8%的成绩，略高于 OpenAI 的 o1-1217。在 MATH-500 测试中，DeepSeek-R1 更是达到了 97.3% 的高分，与 OpenAI-o1-1217 相当，同时显著优于其他模型。

在编程竞赛方面，DeepSeek-R1 表现出了专家级水平，其在 Codeforces 上的 Elo 评级达到了 2029，超过了 96.3% 的人类参赛者。此外，在工程相关任务中，DeepSeek-R1 的表现也略胜 OpenAI-o1-1217 一筹。

DeepSeek-R1 最新发布，剑指 OpenAI o1

除此之外，团队还 R1 蒸馏出了 6 个小模型开源给社区，参数从小到大分别为 1.5B、7B、8B、14B、32B 以及 70B。其中蒸馏过的 R1 32B 和 70B 模型在性能方面不仅超过了 GPT-4o、Claude 3.5 Sonnet 和 QwQ-32B，甚至比肩 o1-mini 的效果。

DeepSeek-R1 最新发布，剑指 OpenAI o1

如果你仍未真切领略到它的强大，那么请注意：它只需付出 o1 五十分之一的成本，却能收获 o1 百分之百的效能。

典型的花小钱，办大事。

DeepSeek-R1 最新发布，剑指 OpenAI o1

除了 R1 在几乎所有的基准测试中性能都优于 o1 的硬实力，再其发布即开源的训练数据集和优化工具，让不少网友直呼：这才是真正的 Open AI。

三点核心技术，剑指 o1

R1 发布后，国内外大模型从业者纷纷围观、并交流点评。

深度赋智 CEO 吴承霖向 PHP中文网(公众号：PHP中文网)AI 科技评论评价： DeepSeek R1 确实厉害，但方法非常简单，核心其实就三点。

Self play、Grpo 以及 Cold start。

DeepSeek 团队这次开源的 R1 模型共有两个版本，分别是 DeepSeek-R1-Zero 和 DeepSeek-R1，参数都是 660B 且功能各有千秋。

先说 DeepSeek-R1-Zero，这个模型完全没有使用任何 SFT 数据，仅通过纯粹的 RL 来训练模型，突破了以往模型在提升推理能力时常依赖于 SFT 作为预训练步骤的形式。这是大模型训练中首次跳过监督微调，是此次DeepSeek的核心创新。

通俗一点讲，就是我们不直接告诉模型“应该如何解题”，而是让它通过自主试错并从中学习正确的方法，即 Self play。这就像不让孩子死记硬背公式，而是直接提供题目和评分标准，让他们在实践中自行摸索解法。这样的方式不仅能激发模型的自主学习能力，还可能在探索过程中发现更具创新性的思路。

DeepSeek-R1 最新发布，剑指 OpenAI o1

但是DeepSeek-R1-Zero这个孩子一直做试错练习的话，就会有可读性差和语言混合问题。于是团队研发推出了 DeepSeek-R1，这个模型在训练过程中引入了少量的冷启动数据，即cold-start data，并通过多阶段 RL 优化模型，在仅有极少标注数据的情况下，极大提升了模型的推理能力。

具体来说，冷启动数据包含数千条高质量的长思维链（CoT）示例，通过人工标注和格式过滤（如使用和

标签），强制模型生成结构清晰、语言一致的内容。其核心优势在于：

1、稳定性：为强化学习（RL）训练提供高质量的初始策略，有效避免早期探索阶段输出的混乱无序，确保训练过程平稳起步。

2、可读性：借助模板化输出（如总结模块），显著提升生成内容的用户友好性，使用户能够更直观地理解和接受输出结果。

3、加速收敛：有效减少强化学习训练所需的步数，显著提升训练效率，加快模型收敛速度。

DeepSeek-R1 最新发布，剑指 OpenAI o1