使用CosyVoice3制作有声书的经验分享

在过去的四天里，我通过使用CosyVoice3制作了一部有声书。整个过程完全使用自然语言进行描述，借助5.3 codex进行部署和调试，没有任何操作门槛，适合所有人尝试。

硬件配置

我使用的设备是u9笔记本电脑，搭配RTX 5060 8GB显卡。

效果

生成速度接近实时，但不是完全实时流式播放。30秒的音频无需微调，人声音色完美克隆，没有电音影响。唯一略显不自然的是句子间的吸气声。

项目起因

VR社的一位新成员音色很好听，但由于直播员懒狗，播的时间太短。与其反复循环录播，不如让AI用这个音色读小说。

模型选择

最初我对TTS模型不太了解，询问了Codex推荐适合我电脑的微调模型。GPT推荐了GPT-SoVITS v2Pro，但训练后效果不佳，断句不自然，音色有电音感。我转向了更新的模型，如Qwen3-TTS、F5-TTS、VoxCPM-1.5、IndexTTS2和CosyVoice 3.0。经过测试，CosyVoice 3.0效果最佳，因此我选择了它进行精细调整。

调试经验

整个处理链路包括：ttsfrd文本规范化、参考音频和筛选的cache_id、开启说话人缓存的CosyVoice 3.0、异常句检测、合成和视频封面制作。

文本规范化：直接使用推荐的ttsfrd，处理“A&B”等格式时手动替换。
参考音频：从直播录播中选取三段不同音色状态的音频片段，拼合成不超过30秒的参考音频。
说话人缓存：开启后音色更一致，选择了第九条cache_id，意外降低了胡言乱语的概率。
模型设置：开启说话人缓存并复用选好的cache_id，发现默认的fp32比fp16更快。
复核检查：生成语音长度需与参考音频接近，通过语音转文字和异常检测进行复核。
合成上传：调整音量至-16 LUFS，制作视频封面上传b站。

成果

制作了7章950段，总时长7小时43分钟的有声书。生成速度RTF为0.967614，生成1小时音频约需58.1分钟。

结语

感谢5.3 codex和GGBOOM公益站的帮助，Opus 4.6也提供了很多参数上的解释。我还发现codex可以在后台看守长时间任务，如整夜微调模型。如果能稳定触发这个功能，就可以在睡前将整个流程交给它，醒来即得成品。不知道有没有人探索过这方面？

使用CosyVoice3制作有声书的经验分享