Claude 智力状态追踪是一个专注于监控和评估 Claude Code 在 SWE-Bench-Pro 测试中的表现的项目。该项目通过每日运行 Claude Code + Opus 4.5 在 SWE Pro 上的评测,来追踪其性能变化,并使用统计显著性测试来监测是否存在性能下降。这种追踪对于确保人工智能模型如 Claude Code 的持续优化和性能保持至关重要。用户可以通过 Marginlab 网站来查看详细的追踪数据和结果。此外,该项目也在 社区中有相关的讨论和更新,用户可以通过 (https:///t/topic/1545006) 链接查看更多信息和参与讨论。该项目还提供了图片链接,帮助用户更直观地理解 Claude Code 的性能状态。

标签: none

评论已关闭