智普发布GLM-OCR:多模态OCR模型引领文档理解新潮流
智普发布的GLM-OCR是一款基于GLM-V编码器-解码器架构构建的多模态OCR模型,专门用于复杂文档的理解。该模型采用了多Token预测(MTP)损失函数和全任务强化学习,显著提升了训练效率、识别准确率以及泛化能力。模型集成了预训练的CogViT视觉编码器、轻量级跨模态连接器以及GLM-0.5B语言解码器,结合PP-DocLayout-V3的版面分析与并行识别技术,使其在处理各类文档版面时表现出色。GLM-OCR在OmniDocBench V1.5评测中取得了94.62分,位列总榜第一,同时在公式识别、表格识别及信息提取等基准测试中也达到了顶尖水平。该模型针对真实业务场景进行了优化,能够处理复杂表格、代码密集型文档等具有挑战性的文档。此外,GLM-OCR的模型参数量仅为0.9B,支持通过vLLM、SGLang和Ollama进行部署,显著降低了推理延迟和计算成本,非常适合高并发服务和边缘侧部署。
评论已关闭