PaddleOCR-VL-1.5 是 PaddleOCR-VL 的最新升级版本,专注于提升文档解析能力并扩展新功能。此版本采用了创新的 PP-DocLayoutV3 算法,能够有效处理扭曲、倾斜、扫描、光照以及屏幕拍照等自然文档场景,实现精确的版面解析。PaddleOCR-VL-1.5-0.9B 模型在保持原有参数量的基础上,增强了文本定位识别和印章识别能力,并支持111种语言的识别,复杂场景下的元素识别能力也得到了显著提升。

PaddleOCR-VL-1.5 的核心特性包括:

  • 在 OmniDocBench v1.5 基准测试中实现了94.5%的高精度,超越了全球顶尖的通用大模型和文档解析专用模型。
  • 在扫描、弯曲、倾斜、屏摄和光照变化等五大现实场景的文档解析任务中,表现全面优于主流的开源和闭源模型。
  • 基于0.9B参数量,扩展了文本检测识别和印章识别任务,各任务指标均创下SOTA结果。
  • 强化多元素识别能力,提升了对特殊符号、古籍、多语言表格、下划线和复选框的识别性能,并新增支持中国藏文和孟加拉语识别。
  • 支持长文档跨页解析,能够自动合并跨页表格和识别跨页段落标题,有效解决长文档解析中的内容碎片化问题。

标签: none

评论已关闭