DeepSeekMath-V2:迈向可自我验证的数学推理
DeepSeekMath-V2 是一个在数学推理领域取得显著进展的大型语言模型。该模型基于3.2Exp-base,通过强化学习技术,在AIME和HMMT等定量推理竞赛中达到了饱和水平。然而,传统的基于最终答案准确性的训练方法存在局限性,无法保证推理过程的正确性。因此,DeepSeekMath-V2引入了自我验证机制,旨在验证数学推理的全面性和严谨性。该模型通过训练一个定理证明验证器,并使用该验证器作为奖励模型来训练证明生成器,激励生成器在最终确定证明之前,尽可能多地识别并解决自身证明中的问题。此外,DeepSeekMath-V2还提出了扩展验证计算的方法,以自动标记新的难以验证的证明,从而创建训练数据以进一步改进验证器。在IMO 2025、CMO 2024和Putnam 2024等竞赛中,DeepSeekMath-V2展示了强大的定理证明能力,取得了金牌水平的成绩,并在Putnam 2024中以扩展的测试时计算获得了接近满分118分。这些成果表明,自我验证的数学推理是一个可行的研究方向,可能有助于开发出更强大的数学人工智能系统。
评论已关闭