阿里开源8B语音大模型Fun Audio Chat上线
阿里开源8B语音大模型fun audio chat上线
Fun-Audio-Chat 是一款专为自然、低延迟语音交互而构建的大规模音频语言模型。它引入了双分辨率语音表征(一个高效的 5Hz 共享主干 + 一个 25Hz 精细化头部),在保持高语音质量的同时大幅降低计算开销,并采用Core-Cocktail训练方法以保留强大的文本大语言模型能力。该模型在口语问答、音频理解、语音函数调用、语音指令遵循和语音共情等基准测试中均取得了顶尖表现。
端到端的语音大模型比起级联的方案优点在于可以识别情绪等副语言信息,比如下面官方例子的,同一句话不同情绪,大模型会有不同的回答
示例页面:
Fun-Audio-Chat Demo
魔搭社区:
Fun-Audio-Chat-8B · 模型库
arxiv论文:
[2506.09349] DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations
github仓库:
FunAudioLLM/Fun-Audio-Chat: Fun-Audio-Chat is a Large Audio Language Model built for natural, low-latency voice interactions.
1 post - 1 participant
Read full topic
via - 最新话题 (author: xy3)
Invalid media:
image
image
评论已关闭