DeepSeekMath-V2：迈向可自我验证的数学推理

DeepSeekMath-V2 是一个在数学推理领域取得显著进展的大型语言模型。该模型基于3.2Exp-base，通过强化学习技术，在AIME和HMMT等定量推理竞赛中达到了饱和水平。然而，传统的基于最终答案准确性的训练方法存在局限性，无法保证推理过程的正确性。因此，DeepSeekMath-V2引入了自我验证机制，旨在验证数学推理的全面性和严谨性。该模型通过训练一个定理证明验证器，并使用该验证器作为奖励模型来训练证明生成器，激励生成器在最终确定证明之前，尽可能多地识别并解决自身证明中的问题。此外，DeepSeekMath-V2还提出了扩展验证计算的方法，以自动标记新的难以验证的证明，从而创建训练数据以进一步改进验证器。在IMO 2025、CMO 2024和Putnam 2024等竞赛中，DeepSeekMath-V2展示了强大的定理证明能力，取得了金牌水平的成绩，并在Putnam 2024中以扩展的测试时计算获得了接近满分118分。这些成果表明，自我验证的数学推理是一个可行的研究方向，可能有助于开发出更强大的数学人工智能系统。

DeepSeekMath-V2：迈向可自我验证的数学推理

评论已关闭