百度发布开源PaddleOCR-VL-1.5：面向真实场景文档解析的多任务0.9B视觉语言模型

百度正式发布并开源了新一代文档解析模型PaddleOCR-VL-1.5。这个模型是一个面向鲁棒自然场景文档解析的多任务0.9B视觉语言模型，在多种文档解析任务上取得了全面的领先。PaddleOCR-VL-1.5不仅支持文档解析和文本定位识别，还新增了印章识别功能，并强化了复杂元素的识别能力。此外，它扩展了支持的语言种类至111种，同时保持了极低的资源消耗。这个模型基于创新的不规则形状定位的PP-DocLayoutV3算法，能够在扭曲、倾斜、扫描、光照和屏幕拍照的自然文档场景实现精确的版面解析。PaddleOCR-VL-1.5-0.9B模型在保持原有模型参数量的情况下，扩展了文本定位识别和印章识别能力，并支持识别的语言扩充至111种。该模型已发布至HuggingFace，用户可以在PaddleOCR官网在线使用或调用该模型的API。PaddleOCR-VL-1.5在OmniDocBench v1.5基准上实现了94.5%的高精度，超越了全球顶尖的通用大模型和文档解析专用模型。它还引入了一种创新的文档解析方法，业界首个支持不规则文档版面定位，在扫描、弯曲、倾斜、屏摄和光照变化这五个现实场景的文档解析任务评估集上，表现全面优于主流的开源和闭源模型。PaddleOCR-VL-1.5增强了特定场景和多语言识别方面的能力，针对特殊符号、古籍、多语言表格、下划线和复选框的识别性能得到提升。它还支持跨页表格自动合并和跨页段落标题识别，有效缓解了长文档解析中的内容碎片化问题。

百度发布开源PaddleOCR-VL-1.5：面向真实场景文档解析的多任务0.9B视觉语言模型

评论已关闭