olmOCR-2-7B更新发布：开源OCR领域的新王者

olmOCR-2-7B更新发布，为开源OCR领域带来了新的突破。这款OCR系统基于Qwen2.5-VL-7B模型构建，它能够高效处理复杂的页面文档。其工作原理是先通过视觉编码器对页面图像进行编码，然后利用解码器生成结构化的文本输出。输出的文本格式多样，包括Markdown格式的标题和文档结构、HTML格式的表格以及LaTeX格式的数学公式。在olmOCR-Bench测试中，olmOCR 2取得了82.4分的优异成绩，这一成绩在历史上也是非常出色的。用户可以通过以下链接获取BF16和FP8格式的模型：

BF16: 链接
FP8: 链接。更多信息和讨论可以在的论坛中找到，详情请访问完整话题。该更新由用户fengchris贡献，更多内容请参考 - 。有关该更新的更多细节和讨论，可以通过以下链接查看相关图片：图片链接。

olmOCR-2-7B更新发布：开源OCR领域的新王者

评论已关闭