智普发布GLM-OCR：多模态OCR模型引领文档理解新潮流

智普发布的GLM-OCR是一款基于GLM-V编码器-解码器架构构建的多模态OCR模型，专门用于复杂文档的理解。该模型采用了多Token预测（MTP）损失函数和全任务强化学习，显著提升了训练效率、识别准确率以及泛化能力。模型集成了预训练的CogViT视觉编码器、轻量级跨模态连接器以及GLM-0.5B语言解码器，结合PP-DocLayout-V3的版面分析与并行识别技术，使其在处理各类文档版面时表现出色。GLM-OCR在OmniDocBench V1.5评测中取得了94.62分，位列总榜第一，同时在公式识别、表格识别及信息提取等基准测试中也达到了顶尖水平。该模型针对真实业务场景进行了优化，能够处理复杂表格、代码密集型文档等具有挑战性的文档。此外，GLM-OCR的模型参数量仅为0.9B，支持通过vLLM、SGLang和Ollama进行部署，显著降低了推理延迟和计算成本，非常适合高并发服务和边缘侧部署。

智普发布GLM-OCR：多模态OCR模型引领文档理解新潮流

评论已关闭