使用CosyVoice3制作有声书的经验分享
使用CosyVoice3制作有声书的经验分享
在过去的四天里,我通过使用CosyVoice3制作了一部有声书。整个过程完全使用自然语言进行描述,借助5.3 codex进行部署和调试,没有任何操作门槛,适合所有人尝试。
硬件配置
我使用的设备是u9笔记本电脑,搭配RTX 5060 8GB显卡。
效果
生成速度接近实时,但不是完全实时流式播放。30秒的音频无需微调,人声音色完美克隆,没有电音影响。唯一略显不自然的是句子间的吸气声。
项目起因
VR社的一位新成员音色很好听,但由于直播员懒狗,播的时间太短。与其反复循环录播,不如让AI用这个音色读小说。
模型选择
最初我对TTS模型不太了解,询问了Codex推荐适合我电脑的微调模型。GPT推荐了GPT-SoVITS v2Pro,但训练后效果不佳,断句不自然,音色有电音感。我转向了更新的模型,如Qwen3-TTS、F5-TTS、VoxCPM-1.5、IndexTTS2和CosyVoice 3.0。经过测试,CosyVoice 3.0效果最佳,因此我选择了它进行精细调整。
调试经验
整个处理链路包括:ttsfrd文本规范化、参考音频和筛选的cache_id、开启说话人缓存的CosyVoice 3.0、异常句检测、合成和视频封面制作。
- 文本规范化:直接使用推荐的ttsfrd,处理“A&B”等格式时手动替换。
- 参考音频:从直播录播中选取三段不同音色状态的音频片段,拼合成不超过30秒的参考音频。
- 说话人缓存:开启后音色更一致,选择了第九条cache_id,意外降低了胡言乱语的概率。
- 模型设置:开启说话人缓存并复用选好的cache_id,发现默认的fp32比fp16更快。
- 复核检查:生成语音长度需与参考音频接近,通过语音转文字和异常检测进行复核。
- 合成上传:调整音量至-16 LUFS,制作视频封面上传b站。
成果
制作了7章950段,总时长7小时43分钟的有声书。生成速度RTF为0.967614,生成1小时音频约需58.1分钟。
结语
感谢5.3 codex和GGBOOM公益站的帮助,Opus 4.6也提供了很多参数上的解释。我还发现codex可以在后台看守长时间任务,如整夜微调模型。如果能稳定触发这个功能,就可以在睡前将整个流程交给它,醒来即得成品。不知道有没有人探索过这方面?
评论已关闭