olmOCR-2-7B更新发布:开源OCR领域的新王者
olmOCR-2-7B更新发布,为开源OCR领域带来了新的突破。这款OCR系统基于Qwen2.5-VL-7B模型构建,它能够高效处理复杂的页面文档。其工作原理是先通过视觉编码器对页面图像进行编码,然后利用解码器生成结构化的文本输出。输出的文本格式多样,包括Markdown格式的标题和文档结构、HTML格式的表格以及LaTeX格式的数学公式。在olmOCR-Bench测试中,olmOCR 2取得了82.4分的优异成绩,这一成绩在历史上也是非常出色的。用户可以通过以下链接获取BF16和FP8格式的模型:
评论已关闭