DeepSeek发布新一代OCR模型 OCR 2，赋予AI图像处理因果推理能力

DeepSeek-AI正式发布并开源了新一代视觉语言模型DeepSeek-OCR 2及其技术论文。该模型通过创新的编码器架构DeepEncoder V2，首次赋予了人工智能在处理二维图像时的“因果推理”能力，彻底改变了传统模型死板的图像解析方式，为复杂文档的数字化理解提供了全新的技术路径。得益于这一底层架构的突破，DeepSeek-OCR 2在保持超高压缩效率的同时实现了性能跃升。测试数据显示，该模型仅需使用256至1120个极少量的视觉token即可完成高精度解析，算力消耗极低。在权威文档解析基准OmniDocBench v1.5的测试中，新模型的整体性能较前代提升了3.73%，阅读顺序的准确率更是显著提高。目前，该模型的代码与权重已在GitHub全面开源。

DeepSeek发布新一代OCR模型 OCR 2，赋予AI图像处理因果推理能力

评论已关闭