Fun-ASR-Nano-2512 Linux 部署指南
Fun-ASR-Nano-2512 是通义实验室推出的端到端语音识别大模型 Fun-ASR 的轻量化版本。Fun-ASR 是一款功能全面的语音识别基础工具包,集成了自动语音识别、语音活动检测、标点恢复、语言模型、说话人验证、说话人日志记录以及多说话人语音识别等多项核心功能。轻量化版本 Fun-ASR-Nano 参数量 0.8B ,推理成本更低,支持本地部署与定制化微调。该模型基于数千万小时真实语音数据训练,支持低延迟实时转写与 31 种语言识别。核心特性包括远场高噪声场景深度优化,识别准确率可达 93% ;支持吴语、粤语、闽语、客家话、赣语、湘语、晋语 7 方言及河南、陕西、湖北、四川等 26 个地区口音;强化音乐背景下的歌词识别能力;引入 RAG 机制将定制热词上限提升至 10000 条,满足金融、医疗、教育等专业领域需求。
版本发布后,正好我这项目要用到,第一时间进行了部署调试,部署过程坑还是比较多的,我把部署过程都记录了下来,甚至写成了部署脚本,有需要的的话拿去,参考部署脚本,或者人工操作步骤都可以。同时写了个 ws 服务启动,方便应用调用,部署也提供了 python 测试脚本,和 web 网页麦输入流工推理输出(实时输出准确性很差,哪个模型都一样,这个忽略,实际用 offline 的输出准确)。
目录结构
上传本目录所有文件到服务器的 /data/asr/ 目录:
● install.sh: 环境安装脚本
● start_server.sh: 启动 Fun-ASR WebSocket 服务脚本
● funasr_wss_server.py: WebSocket 服务主程序
● download_model.py: 模型下载脚本(安装时下载模型)
● test_inference.py: 本地推理测试脚本(验证环境)
● funasr_wss_client.py: 测试客户端(验证部署是否 OK)
● web_client: Web 测试客户端目录,方便 WEB 页面测试(未实现 VAD 检测,仅用于测试流式识别)
其他的看开源地址:https://github.com/fengin/Fun-ASR-Nano-2512-Deploy
对佬们有帮助的话点个 star
1 post - 1 participant
via - (author: 凌封小子)
评论已关闭