Hugging Face Transformers集成GLM-OCR模型,提升视觉与文本处理能力
Hugging Face Transformers最近迎来了一项重要更新,集成了GLM-OCR模型。这个模型架构深度继承了GLM-4V的技术栈,由视觉与文本双网络组成,支持图像与视频的双重模态输入。GLM-OCR不仅具备高精度的文字解析能力,还引入了思维链,通过内部逻辑梳理显著提升了在复杂场景下的判断准确率。这个集成是通过一个名为GLM-OCR Test Support的Pull Request #43391实现的,该PR由用户zRzRzRzRzRzRzR提交,并于1月21日被Hugging Face Transformers仓库接受。这个更新为用户提供了更强大的工具,以处理视觉和文本数据,特别是在需要高精度文字解析和复杂场景理解的任务中。
评论已关闭