PaddleOCR-VL (0.9B) 推出:超紧凑视觉语言模型,文档解析新突破
PaddleOCR-VL (0.9B) 是一款超紧凑的视觉语言模型,它在文本、表格、公式、图表和手写识别方面达到了SOTA级别的准确率,突破了文档解析的极限。这款模型仅拥有0.9B的参数量,刷新了OmniBenchDoc的纪录,在全球范围内排名第一,其四大核心能力全面超越GPT-4o、Gemini-2.5 Pro以及MinerU2.5、dots.ocr等模型。PaddleOCR-VL搭载了NaViT动态视觉编码器和ERNIE轻量级语言模型,支持109种语言,能够处理小型脚本和复杂布局,为现实世界的文档智能提供工业级效率。该模型已在GitHub、HuggingFace以及人工智能工作室等平台开源,并支持多种部署方式,用户可以直接在HuggingFace上体验。PaddleOCR-VL在权威评测榜单OmniDocBench v1.5中以92.6的高分取得了综合性能全球第一的成绩,推理速度较MinerU2.5提升了14.2%,较dots.ocr提升了253.01%。它不仅能够‘读懂’文档结构,还能智能理解文档布局,自动按正确顺序整理内容,精准提取文档中的表格、数学公式、手写笔记、图表数据等复杂内容信息,并将它们转换为可直接使用的结构化数据。
评论已关闭