深入解析《图解DeepSeek技术》中的推理大模型与DS架构

读《图解DeepSeek技术》
书中主要内容包括 3 大部分：推理大模型概述、DS 架构、DS-R1 的训练方法
推理大模型更关注如何得到答案，而不是直接给出答案。它会把问题逐步拆分、细化。
DS-v3的基底大模型训练时就使用了很多省成本、提效率的方法
DS-R1-zero在不使用监督数据，只靠强化学习就创造了强推理的模型
DS-R1借鉴了 zero 的想法，使用中间模型构建出来的推理样本和非推理样本（一共 80 万条）进行 SFT，最终训练出 DS-R1。其中的 80 万条样本数据还可以用于小模型的数据蒸馏
最后，附一段大神 kapathy 对 2025 年 ai 发展的一个回顾片段，感觉是对这本书的内容的一个更好的概括：

RLVR 强化学习成为新标准
年前的 LLM 训练流程是: 预训练 → SFT 监督微调 → RLHF 人类反馈强化学习。今年 RLVR (Reinforcement Learning from Verifiable Rewards) 成为新的重要阶段。通过在可验证环境(如数学/程序题目)中训练，LLM 自发发展出「推理」策略，学会将问题分解成中间步骤。
跟 SFT 和 RLHF 不同，RLVR 是针对客观(不可被欺骗的)奖励函数进行训练，因此可以优化更长时间。由于 RLVR 能提供更高的能力/成本比，原本用於预训练的算力被转移过来。因此 2025 年的进展主要来自更长的 RL 训练，而非更大的模型。这个新阶段还带来一个全新的调控旋钮: 通过生成更长的推理轨迹、增加「思考时间」，可以用测试时计算量来控制能力(以及对应的 scaling law)。OpenAI o1 是首个 RLVR 模型展示，但 o3 的发布才是真正让人直觉感受到差异的转折点。

深入解析《图解DeepSeek技术》中的推理大模型与DS架构

评论已关闭