Qwen3-TTS语音大模型正式发布
阿里巴巴通义千问团队在1月22日宣布了新一代开源语音合成模型系列Qwen3-TTS的正式上线。这个系列包括了从0.6B到1.8B参数规模的多个模型,并且已经在GitHub、Hugging Face以及ModelScope等全球开源社区开放了权重、代码和技术论文。
Qwen3-TTS系列由VoiceDesign、CustomVoice和Base三大核心组成,支持中、英、日、韩、德、法等10种主流语言。这个模型不仅能够实现仅需3秒音频的高保真声音克隆,还创新性地支持通过自然语言指令直接设计人声,比如用户可以描述“一个带有四川口音、语气略显愤怒的成年男性”来生成特定的语音。
在技术架构上,Qwen3-TTS采用了自主研发的12Hz高压缩率Tokenizer及双轨混合流式生成架构。这一设计解决了传统模型在长文本处理中的信息瓶颈问题,使得端到端合成延迟低至97毫秒。这意味着在实时交互场景中,模型可以在输入首个字符的瞬间即刻输出音频流,极大提升了人机对话的自然感。
GitHub: Qwen3-TTS
Hugging Face: Qwen3-TTS
评论已关闭