DeepSeek 团队开源 3B 的 DeepSeek-OCR 模型
DeepSeek 团队最近开源了一个名为 DeepSeek-OCR 的 3B 模型,专注于图片和文档中的文字内容识别。这个模型在处理图片和文档时,能够有效地提取文字信息,并将其构建成上下文,供 DeepSeek 的 v3 模型进一步处理和生成回复。DeepSeek-OCR 与传统的 OCR 模型类似,但团队针对模型进行了特定的优化处理。在10倍压缩比下,DeepSeek-OCR 的 OCR 准确率可达到96%以上,而在20倍压缩比时,准确率也能维持在60%左右。DeepSeek-OCR 的模型结构主要由 DeepEncoder 和 MoE 解码器组成。DeepEncoder 是模型的核心组件,负责将输入图像压缩为视觉标记,同时保持低计算需求。它采用了混合模型结构,结合了窗口注意力和全局注意力,能够处理不同分辨率的图像。MoE 解码器则通过从多个专家中选择一部分进行解码,提高了处理效率。与其他 OCR 模型相比,DeepSeek-OCR 使用更少的视觉标记,达到了更高的效率。例如,在 OmniDocBench 测试中,DeepSeek-OCR 只使用100个视觉标记就超过了需要256个标记的 GOT-OCR2.0,而与使用7000多个标记的 MinerU2.0 相比,DeepSeek-OCR 仅使用不到800个标记就能取得更好的表现。DeepSeek-OCR 的数据标注部分使用了 paddleocr,也展现了其强大的性能。该模型已经在 Hugging Face 和 GitHub 上开源,供社区使用和研究。DeepSeek 团队致力于通过开源和开放科学推动人工智能的发展与普及。
评论已关闭