开源社区全自动Codex Bench：检测AI模型Claude的通用能力

本文介绍了开源项目Codex Bench，这是一个社区全自动的项目，内置了糖果题和灰测128，可以用来检测AI模型Claude的通用能力。该项目支持国模，旨在检测AI模型的小G是否变得更加智能。项目已在社区获得认可，并承诺完全开源，无未开源部分。项目介绍内容已使用截图方式发出，确保了内容的真实性和完整性。

开源社区全自动Codex Bench：检测AI模型Claude的通用能力

评论已关闭