PaddleOCR升级至VL-1.5版本：OCR新王诞生！

PaddleOCR-VL-1.5 是 PaddleOCR-VL 的最新升级版本，专注于提升文档解析能力并扩展新功能。此版本采用了创新的 PP-DocLayoutV3 算法，能够有效处理扭曲、倾斜、扫描、光照以及屏幕拍照等自然文档场景，实现精确的版面解析。PaddleOCR-VL-1.5-0.9B 模型在保持原有参数量的基础上，增强了文本定位识别和印章识别能力，并支持111种语言的识别，复杂场景下的元素识别能力也得到了显著提升。

PaddleOCR-VL-1.5 的核心特性包括：

在 OmniDocBench v1.5 基准测试中实现了94.5%的高精度，超越了全球顶尖的通用大模型和文档解析专用模型。
在扫描、弯曲、倾斜、屏摄和光照变化等五大现实场景的文档解析任务中，表现全面优于主流的开源和闭源模型。
基于0.9B参数量，扩展了文本检测识别和印章识别任务，各任务指标均创下SOTA结果。
强化多元素识别能力，提升了对特殊符号、古籍、多语言表格、下划线和复选框的识别性能，并新增支持中国藏文和孟加拉语识别。
支持长文档跨页解析，能够自动合并跨页表格和识别跨页段落标题，有效解决长文档解析中的内容碎片化问题。

PaddleOCR升级至VL-1.5版本：OCR新王诞生！

评论已关闭