一次啼笑皆非的极不严谨AI测试：反转与发现

在最近的一次个人测试中，作者对比了多个渠道的AI模型，包括Claude Opus 4.5、GPT-5.2 High、Codex等，进行了一次非常不严谨但有趣的AI质量测试。测试内容是Flutter综合开发，作者亲自出题并修改题目，要求先提出方案再编写代码，最后根据方案和最终效果进行评分。测试中，作者发现了一些有趣的现象和问题，比如GPT在改卷时出现了错误判断，Claude在某些情况下表现出了反杀考官的情况。此外，作者还记录了不同AI模型的表现，如Gemini 3pro、antigravity（claude）、antigravity（Gemini3pro h）等，并对它们的性能进行了比较。整个过程充满了反转和乐趣，展示了AI技术的多样性和复杂性。

一次啼笑皆非的极不严谨AI测试：反转与发现

评论已关闭