一次啼笑皆非的极不严谨AI测试:反转与发现
在最近的一次个人测试中,作者对比了多个渠道的AI模型,包括Claude Opus 4.5、GPT-5.2 High、Codex等,进行了一次非常不严谨但有趣的AI质量测试。测试内容是Flutter综合开发,作者亲自出题并修改题目,要求先提出方案再编写代码,最后根据方案和最终效果进行评分。测试中,作者发现了一些有趣的现象和问题,比如GPT在改卷时出现了错误判断,Claude在某些情况下表现出了反杀考官的情况。此外,作者还记录了不同AI模型的表现,如Gemini 3pro、antigravity(claude)、antigravity(Gemini3pro h)等,并对它们的性能进行了比较。整个过程充满了反转和乐趣,展示了AI技术的多样性和复杂性。
评论已关闭