Hugging Face Transformers集成GLM-OCR模型，提升视觉与文本处理能力

Hugging Face Transformers最近迎来了一项重要更新，集成了GLM-OCR模型。这个模型架构深度继承了GLM-4V的技术栈，由视觉与文本双网络组成，支持图像与视频的双重模态输入。GLM-OCR不仅具备高精度的文字解析能力，还引入了思维链，通过内部逻辑梳理显著提升了在复杂场景下的判断准确率。这个集成是通过一个名为GLM-OCR Test Support的Pull Request #43391实现的，该PR由用户zRzRzRzRzRzRzR提交，并于1月21日被Hugging Face Transformers仓库接受。这个更新为用户提供了更强大的工具，以处理视觉和文本数据，特别是在需要高精度文字解析和复杂场景理解的任务中。

Hugging Face Transformers集成GLM-OCR模型，提升视觉与文本处理能力

评论已关闭