PaddleOCR-VL (0.9B) 推出：超紧凑视觉语言模型，文档解析新突破

PaddleOCR-VL (0.9B) 是一款超紧凑的视觉语言模型，它在文本、表格、公式、图表和手写识别方面达到了SOTA级别的准确率，突破了文档解析的极限。这款模型仅拥有0.9B的参数量，刷新了OmniBenchDoc的纪录，在全球范围内排名第一，其四大核心能力全面超越GPT-4o、Gemini-2.5 Pro以及MinerU2.5、dots.ocr等模型。PaddleOCR-VL搭载了NaViT动态视觉编码器和ERNIE轻量级语言模型，支持109种语言，能够处理小型脚本和复杂布局，为现实世界的文档智能提供工业级效率。该模型已在GitHub、HuggingFace以及人工智能工作室等平台开源，并支持多种部署方式，用户可以直接在HuggingFace上体验。PaddleOCR-VL在权威评测榜单OmniDocBench v1.5中以92.6的高分取得了综合性能全球第一的成绩，推理速度较MinerU2.5提升了14.2%，较dots.ocr提升了253.01%。它不仅能够‘读懂’文档结构，还能智能理解文档布局，自动按正确顺序整理内容，精准提取文档中的表格、数学公式、手写笔记、图表数据等复杂内容信息，并将它们转换为可直接使用的结构化数据。

PaddleOCR-VL (0.9B) 推出：超紧凑视觉语言模型，文档解析新突破

评论已关闭