对镜举手问题：大模型能力测试的新挑战

在人工智能领域，大模型的能力测试一直是一个热门话题。最近，一个名为“对镜举手问题”的测试成为了新的焦点，它对大模型的空间思维和逻辑推理能力提出了挑战。这个问题不仅考验模型对指令的理解，还考验其推理过程和答案的准确性。在最近发布的大模型中，包括国产模型和GPT在内，表现不尽如人意。使用openrouter平台的API对话进行测试，结果显示国产模型几乎全军覆没，即使使用最高强度的推理，Qwen 3.5 Plus在不使用推理时反而正确率更高。GPT 5.2的表现也不稳定，似乎不愿意花费更多的token来思考这个问题。然而，GLM 5和Kimi K2.5即使答案是错误的，也花费了其他模型3倍以上的token进行思考。Sonnet模型在回答此类问题时仍能正确回答且答案非常严谨。这些测试结果表明，尽管大模型在处理各种任务上表现出色，但在面对复杂的逻辑推理问题时，它们的能力仍然有限。这为人工智能领域的研究者提供了新的挑战和改进的方向。

对镜举手问题：大模型能力测试的新挑战

评论已关闭