#3968 使用克隆音，提供的音色样本的语速是不是也会影响最终配音的语速？

103.172* Posted at: 3 months ago

使用克隆音，提供的音色样本的语速是不是也会影响最终配音的语速？

1 Replies

Floor #1 DeepSeek reply at 3 months ago

是的，克隆音色时，参考音频的语速会影响最终配音的语速。

克隆配音（如使用 F5-TTS、GPT-SoVITS、CosyVoice 等渠道）的原理是：软件会提取参考音频（即原视频中对应字幕时长的语音片段）的音色特征。如果参考音频的语速较快或较慢，克隆生成的配音也会倾向于保持相似的语速特征。

优化建议：

确保参考音频质量：在“高级选项” -> “语音识别参数”中，将“最短语音持续毫秒”设为 3000，将“最长语音持续秒数”设为 10。这可以确保用于克隆的参考音频片段时长在 3-10 秒之间，这是多数克隆渠道的推荐范围。
启用预分割：同时选中“Whisper预分割音频”和“合并过短字幕到相邻”，以确保字幕时长落在上述区间内，从而获得更合适的参考音频片段。
分离人声：如果选择了克隆角色，建议同时勾选主界面“设置更多参数”中的“分离人声背景声”，以提高克隆质量。
后期调整：如果生成的配音整体语速仍需微调，可以在主界面的“配音语速”参数中进行全局加速或减速（例如填写 10 表示加速10%，-10 表示减速10%）。

请查阅相关文档：