DeepSeek 团队开源 3B 的 DeepSeek-OCR 模型

DeepSeek 团队最近开源了一个名为 DeepSeek-OCR 的 3B 模型，专注于图片和文档中的文字内容识别。这个模型在处理图片和文档时，能够有效地提取文字信息，并将其构建成上下文，供 DeepSeek 的 v3 模型进一步处理和生成回复。DeepSeek-OCR 与传统的 OCR 模型类似，但团队针对模型进行了特定的优化处理。在10倍压缩比下，DeepSeek-OCR 的 OCR 准确率可达到96%以上，而在20倍压缩比时，准确率也能维持在60%左右。DeepSeek-OCR 的模型结构主要由 DeepEncoder 和 MoE 解码器组成。DeepEncoder 是模型的核心组件，负责将输入图像压缩为视觉标记，同时保持低计算需求。它采用了混合模型结构，结合了窗口注意力和全局注意力，能够处理不同分辨率的图像。MoE 解码器则通过从多个专家中选择一部分进行解码，提高了处理效率。与其他 OCR 模型相比，DeepSeek-OCR 使用更少的视觉标记，达到了更高的效率。例如，在 OmniDocBench 测试中，DeepSeek-OCR 只使用100个视觉标记就超过了需要256个标记的 GOT-OCR2.0，而与使用7000多个标记的 MinerU2.0 相比，DeepSeek-OCR 仅使用不到800个标记就能取得更好的表现。DeepSeek-OCR 的数据标注部分使用了 paddleocr，也展现了其强大的性能。该模型已经在 Hugging Face 和 GitHub 上开源，供社区使用和研究。DeepSeek 团队致力于通过开源和开放科学推动人工智能的发展与普及。

DeepSeek 团队开源 3B 的 DeepSeek-OCR 模型

评论已关闭