DeepSeek-AI正式发布并开源了新一代视觉语言模型DeepSeek-OCR 2及其技术论文。该模型通过创新的编码器架构DeepEncoder V2,首次赋予了人工智能在处理二维图像时的“因果推理”能力,彻底改变了传统模型死板的图像解析方式,为复杂文档的数字化理解提供了全新的技术路径。得益于这一底层架构的突破,DeepSeek-OCR 2在保持超高压缩效率的同时实现了性能跃升。测试数据显示,该模型仅需使用256至1120个极少量的视觉token即可完成高精度解析,算力消耗极低。在权威文档解析基准OmniDocBench v1.5的测试中,新模型的整体性能较前代提升了3.73%,阅读顺序的准确率更是显著提高。目前,该模型的代码与权重已在GitHub全面开源。

标签: none

评论已关闭