DeepSeek-OCR:视觉识别还是语言逻辑的胜利?
DeepSeek-OCR 是一种基于光学二维映射方法的高效视觉文本压缩技术,声称能够将文本标记压缩至输入视觉标记的十倍以上。然而,最近的一篇论文《Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR》对 DeepSeek-OCR 的真实能力提出了质疑。该论文通过一系列实验,揭示了 DeepSeek-OCR 在面对逻辑混乱或乱码文本时表现出的脆弱性,表明其高度依赖语言逻辑而非真正的视觉识别能力。实验中,当 DeepSeek-OCR 面对打乱顺序的单词或随机字符时,准确率大幅下降,从90%降至20%左右,显示出其依赖“语言拐杖”而非视觉识别的事实。此外,当文档字符数超过8,500至10,500个时,DeepSeek-OCR 会发生“系统崩溃”,输出重复的废话或乱七八糟的网页代码。与传统OCR技术相比,DeepSeek-OCR 在处理乱码、公式、生僻词时显得更为不稳健。论文作者警告说,DeepSeek-OCR 的“脑补”式识别在处理严谨领域如法律合同、医疗处方、金融报表等时极其危险。因此,作者主张建立排除先验干扰的评估标准,以引导开发更具鲁棒性的系统。
评论已关闭