混元OCR:1B参数实现SOTA性能的端到端OCR专家模型
混元OCR(HunyuanOCR)是基于腾讯混元原生多模态架构开发的一款端到端OCR专家模型。该模型仅使用1B参数,却能在复杂多语种文档解析、文字检测识别、开放字段信息抽取、视频字幕识别、拍照翻译等多个领域取得SOTA(State of the Art)的成果。混元OCR的核心特点包括轻量化架构、全场景功能、极致易用性、以及多语种支持。其轻量化架构使得模型部署成本大幅降低,全场景功能覆盖了OCR的多个经典任务,并支持端到端拍照翻译与文档问答。此外,混元OCR支持超过100种语言,在单语种和混合语言场景下均表现出色。用户可以通过以下链接获取混元OCR的GitHub仓库和Hugging Face上的模型:GitHub - Tencent-Hunyuan/HunyuanOCR 和 tencent/HunyuanOCR · Hugging Face。更多信息和讨论可以在 - 找到。
评论已关闭