Qwen3-TTS语音大模型正式发布

阿里巴巴通义千问团队在1月22日宣布了新一代开源语音合成模型系列Qwen3-TTS的正式上线。这个系列包括了从0.6B到1.8B参数规模的多个模型，并且已经在GitHub、Hugging Face以及ModelScope等全球开源社区开放了权重、代码和技术论文。

Qwen3-TTS系列由VoiceDesign、CustomVoice和Base三大核心组成，支持中、英、日、韩、德、法等10种主流语言。这个模型不仅能够实现仅需3秒音频的高保真声音克隆，还创新性地支持通过自然语言指令直接设计人声，比如用户可以描述“一个带有四川口音、语气略显愤怒的成年男性”来生成特定的语音。

在技术架构上，Qwen3-TTS采用了自主研发的12Hz高压缩率Tokenizer及双轨混合流式生成架构。这一设计解决了传统模型在长文本处理中的信息瓶颈问题，使得端到端合成延迟低至97毫秒。这意味着在实时交互场景中，模型可以在输入首个字符的瞬间即刻输出音频流，极大提升了人机对话的自然感。

GitHub: Qwen3-TTS

Hugging Face: Qwen3-TTS

Qwen3-TTS语音大模型正式发布

评论已关闭