Fun-ASR-Nano-2512 Linux 部署指南

Fun-ASR-Nano-2512 是通义实验室推出的端到端语音识别大模型 Fun-ASR 的轻量化版本。Fun-ASR 是一款功能全面的语音识别基础工具包，集成了自动语音识别、语音活动检测、标点恢复、语言模型、说话人验证、说话人日志记录以及多说话人语音识别等多项核心功能。轻量化版本 Fun-ASR-Nano 参数量 0.8B ，推理成本更低，支持本地部署与定制化微调。该模型基于数千万小时真实语音数据训练，支持低延迟实时转写与 31 种语言识别。核心特性包括远场高噪声场景深度优化，识别准确率可达 93% ；支持吴语、粤语、闽语、客家话、赣语、湘语、晋语 7 方言及河南、陕西、湖北、四川等 26 个地区口音；强化音乐背景下的歌词识别能力；引入 RAG 机制将定制热词上限提升至 10000 条，满足金融、医疗、教育等专业领域需求。

版本发布后，正好我这项目要用到，第一时间进行了部署调试，部署过程坑还是比较多的，我把部署过程都记录了下来，甚至写成了部署脚本，有需要的的话拿去，参考部署脚本，或者人工操作步骤都可以。同时写了个 ws 服务启动，方便应用调用，部署也提供了 python 测试脚本，和 web 网页麦输入流工推理输出（实时输出准确性很差，哪个模型都一样，这个忽略，实际用 offline 的输出准确）。

目录结构
上传本目录所有文件到服务器的 /data/asr/ 目录：

● install.sh: 环境安装脚本
● start_server.sh: 启动 Fun-ASR WebSocket 服务脚本
● funasr_wss_server.py: WebSocket 服务主程序
● download_model.py: 模型下载脚本（安装时下载模型）
● test_inference.py: 本地推理测试脚本（验证环境）
● funasr_wss_client.py: 测试客户端（验证部署是否 OK）
● web_client: Web 测试客户端目录，方便 WEB 页面测试（未实现 VAD 检测，仅用于测试流式识别）

其他的看开源地址：https://github.com/fengin/Fun-ASR-Nano-2512-Deploy

对佬们有帮助的话点个 star

1 post - 1 participant

via - (author: 凌封小子)

Fun-ASR-Nano-2512 Linux 部署指南

评论已关闭