DeepSeek-OCR：视觉识别还是语言逻辑的胜利？

DeepSeek-OCR 是一种基于光学二维映射方法的高效视觉文本压缩技术，声称能够将文本标记压缩至输入视觉标记的十倍以上。然而，最近的一篇论文《Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR》对 DeepSeek-OCR 的真实能力提出了质疑。该论文通过一系列实验，揭示了 DeepSeek-OCR 在面对逻辑混乱或乱码文本时表现出的脆弱性，表明其高度依赖语言逻辑而非真正的视觉识别能力。实验中，当 DeepSeek-OCR 面对打乱顺序的单词或随机字符时，准确率大幅下降，从90%降至20%左右，显示出其依赖“语言拐杖”而非视觉识别的事实。此外，当文档字符数超过8,500至10,500个时，DeepSeek-OCR 会发生“系统崩溃”，输出重复的废话或乱七八糟的网页代码。与传统OCR技术相比，DeepSeek-OCR 在处理乱码、公式、生僻词时显得更为不稳健。论文作者警告说，DeepSeek-OCR 的“脑补”式识别在处理严谨领域如法律合同、医疗处方、金融报表等时极其危险。因此，作者主张建立排除先验干扰的评估标准，以引导开发更具鲁棒性的系统。

DeepSeek-OCR：视觉识别还是语言逻辑的胜利？

评论已关闭