混元OCR：1B参数实现SOTA性能的端到端OCR专家模型

混元OCR（HunyuanOCR）是基于腾讯混元原生多模态架构开发的一款端到端OCR专家模型。该模型仅使用1B参数，却能在复杂多语种文档解析、文字检测识别、开放字段信息抽取、视频字幕识别、拍照翻译等多个领域取得SOTA（State of the Art）的成果。混元OCR的核心特点包括轻量化架构、全场景功能、极致易用性、以及多语种支持。其轻量化架构使得模型部署成本大幅降低，全场景功能覆盖了OCR的多个经典任务，并支持端到端拍照翻译与文档问答。此外，混元OCR支持超过100种语言，在单语种和混合语言场景下均表现出色。用户可以通过以下链接获取混元OCR的GitHub仓库和Hugging Face上的模型：GitHub - Tencent-Hunyuan/HunyuanOCR 和 tencent/HunyuanOCR · Hugging Face。更多信息和讨论可以在 - 找到。

混元OCR：1B参数实现SOTA性能的端到端OCR专家模型

评论已关闭