olmOCR-2-7B更新发布,为开源OCR领域带来了新的突破。这款OCR系统基于Qwen2.5-VL-7B模型构建,它能够高效处理复杂的页面文档。其工作原理是先通过视觉编码器对页面图像进行编码,然后利用解码器生成结构化的文本输出。输出的文本格式多样,包括Markdown格式的标题和文档结构、HTML格式的表格以及LaTeX格式的数学公式。在olmOCR-Bench测试中,olmOCR 2取得了82.4分的优异成绩,这一成绩在历史上也是非常出色的。用户可以通过以下链接获取BF16和FP8格式的模型:

  • BF16: 链接
  • FP8: 链接。更多信息和讨论可以在的论坛中找到,详情请访问完整话题。该更新由用户fengchris贡献,更多内容请参考 - 。有关该更新的更多细节和讨论,可以通过以下链接查看相关图片:图片链接

标签: none

评论已关闭