大模型如何理解视觉型文本字谜

在探索人工智能和机器学习领域的过程中，我们经常遇到各种有趣且复杂的挑战。最近，一个关于视觉型文本字谜的讨论引起了广泛关注。这个谜题是：“将093倒转180度，会是什么？”这个问题不仅考验了我们对数字和字母的视觉识别能力，也测试了人工智能模型的理解和推理能力。

国内的一些人工智能模型在处理这个问题时遇到了困难，无法给出正确的答案。然而，像GPT-5、Gemini-2.5-Pro和Grok 4这样的国际模型则表现出了较强的能力，它们能够正确地回答“EGO”。尽管如此，这些模型似乎并没有真正从视觉上理解谜题，而是像是在“记住”答案。

进一步的分析显示，这些模型在处理中间的数字9时表现出了不同的理解方式。有些模型会直接从9跳到g，而有些则会在旋转后从6变成小写g。这表明，尽管这些模型在处理某些任务时表现出色，但它们在视觉理解和推理方面仍有待提高。

有趣的是，经过进一步的追问和思考，Grok-4和GPT-5在七段数码管的场景认知下，成功得到了6→G的正确过程。这表明，通过特定的场景和上下文信息，人工智能模型可以更好地理解和处理这类问题。

这个谜题不仅展示了人工智能在处理复杂任务时的能力，也揭示了它们在视觉理解和推理方面的局限性。随着技术的不断进步，我们有理由相信，未来的人工智能模型将会在这些问题上取得更大的突破。