#4072 软件3.98版本可以多角色跨语种克隆吗？

95.85* Posted at: 1 month ago

例如一个视频里三个人说话，软件能否自动分辨，并对三人的声音进行克隆，需要怎么设置？配音渠道是cosvoice 配音角色里也没有auto-clone.

Floor #1 DeepSeek reply at 1 month ago

pyVideoTrans v3.98 版本支持多角色配音，但无法实现“自动分辨并克隆三个不同说话人的声音”。

原因与限制：

说话人分离：软件支持通过“识别说话人”功能区分视频中的不同说话人，但此功能的准确度有限，尤其是在多人、复杂场景或语种混合的情况下。
声音克隆：要实现克隆，需要为每个说话人提供独立的、清晰的3-10秒参考音频。软件无法自动为每个识别出的说话人生成符合克隆要求的参考音频。cosyvoice 等克隆渠道需要你手动指定每个角色的参考音频。

实现多角色跨语种克隆的步骤（非全自动）：

启用说话人分离：在主界面勾选“识别说话人”，并在其后的数字框中填入预估的说话人数（例如 3）。在“设置更多参数...”或“菜单-工具-高级选项-语音识别参数”中，可以切换说话人分离模型（如内置、阿里CAM++、pyannote）。
进行语音识别：完成识别后，软件会生成带有说话人标签（如 [说话人0]、[说话人1]）的字幕文件。
手动准备参考音频：你需要手动从原视频中截取出每个说话人一段3-10秒的、清晰的独白音频片段，并分别保存为独立的音频文件（如 person0.wav、person1.wav）。
配置克隆配音：
- 在“配音渠道”选择支持克隆的渠道，如 CosyVoice-TTS(本地)、F5-TTS、GPT-SoVITS 或 OmniVoice-TTS。
- 在“配音角色”中，选择 clone。
- 软件会提示你为每个需要克隆的说话人（根据字幕中的说话人标签）选择对应的参考音频文件。你需要将步骤3中准备好的音频文件分别指定给对应的说话人标签。

总结：软件可以区分不同说话人并为每个角色单独指定克隆音源，但无法自动完成克隆所需的参考音频提取和匹配，这一步需要用户手动干预。

请查阅相关文档：

Floor #2 95.85* reply at 1 month ago

可以识别法、日语说话人的声音吗？需额外下载模型吗？

Floor #3 DeepSeek reply at 1 month ago

可以识别法语和日语说话人的声音。对于法语和日语，使用 faster-whisper(本地) 或 openai-whisper(本地) 渠道的 large-v3 模型即可，无需额外下载专门针对法语或日语的模型，因为 large-v3 是多语言模型，支持包括法语和日语在内的多种语言。对于日语，还有一个更优的免费选择：使用 HuggingFace_ASR 渠道，并选择 reazon-research/japanese-wav2vec2-large-rs35kh 模型，该模型对日语识别效果更好。第一次使用任何模型时，软件都会自动从网络下载，如果自动下载失败，可以按照知识库中“手动下载适用于 faster-whisper(本地) 语音识别渠道的模型”的指引进行操作。关键设置：在“发音语言”中，必须正确选择“法语”或“日语”，不要依赖“自动检测”（视频翻译功能中已移除该选项）。如果希望区分视频中不同说话人（例如分辨法语或日语视频中的多个角色），可以勾选“识别说话人”功能。其内置模型支持中英文区分，对于法语或日语，准确度可能有限。如需更高准确度，可尝试使用 pyannote 模型（需 HuggingFace Token 并同意授权协议）。请查阅相关文档：语音识别模型介绍与选择说话人识别 HuggingFace_ASR 语音识别渠道

Floor #4 95.85* reply at 1 month ago

合并过短字幕到相邻选项在哪里？

Floor #5 DeepSeek reply at 1 month ago

“合并过短字幕到相邻”选项位于软件的高级设置中。具体路径如下：点击顶部菜单栏的“工具/选项”。在下拉菜单中选择“高级选项”。在弹出的“高级选项”窗口中，找到并点击“语音识别参数”选项卡。在该选项卡内，即可看到“合并过短字幕到邻近”复选框。请注意，该功能仅在“最短语音持续毫秒”参数设置生效时才会起作用。你需要同时设置一个“最短语音持续毫秒”的阈值（例如3000毫秒），并勾选“合并过短字幕到邻近”，软件才会将时长短于该阈值的字幕合并到相邻的字幕中。此功能常用于优化字幕断句，特别是在准备使用“克隆”角色进行配音时，以确保每条字幕有足够的时长（3-10秒）作为参考音频。请查阅相关文档：高级设置各个选项说明优化断句效果，调整语音识别时的字幕时长

Floor #6 Admin reply at 1 month ago

克隆本身就是使用原语音的音色进行配音，是否能够跨语种要视所选配音渠道，qwen-tts(本地)支持中英跨语种，index-tts也支持中英，其他渠道一般都是固定一种

#4072 软件3.98版本可以多角色跨语种克隆吗？

6 Replies

请查阅相关文档：

Post Your Reply

Related resource