对镜举手问题:大模型能力测试的新挑战
在人工智能领域,大模型的能力测试一直是一个热门话题。最近,一个名为“对镜举手问题”的测试成为了新的焦点,它对大模型的空间思维和逻辑推理能力提出了挑战。这个问题不仅考验模型对指令的理解,还考验其推理过程和答案的准确性。在最近发布的大模型中,包括国产模型和GPT在内,表现不尽如人意。使用openrouter平台的API对话进行测试,结果显示国产模型几乎全军覆没,即使使用最高强度的推理,Qwen 3.5 Plus在不使用推理时反而正确率更高。GPT 5.2的表现也不稳定,似乎不愿意花费更多的token来思考这个问题。然而,GLM 5和Kimi K2.5即使答案是错误的,也花费了其他模型3倍以上的token进行思考。Sonnet模型在回答此类问题时仍能正确回答且答案非常严谨。这些测试结果表明,尽管大模型在处理各种任务上表现出色,但在面对复杂的逻辑推理问题时,它们的能力仍然有限。这为人工智能领域的研究者提供了新的挑战和改进的方向。
评论已关闭