#4078 Voxcmptts配音出现重复音

182.107* Posted at: 1 day ago 👁65

使用Voxcmptts配音出现重复音

17 Replies

这是由于 VoxCPM-TTS 配音渠道在生成音频时出现了重复片段。

解决方案:

  1. 在软件主界面,点击顶部菜单栏的 工具/选项 -> 高级选项
  2. 在弹出的窗口中,找到 语音识别参数 区域。
  3. 调整以下参数以优化配音效果,减少重复:

    • 重复惩罚:增大此值(例如从默认值提高到 1.2 或更高),有助于减少模型生成重复内容。
    • 文本压缩率:减小此值(例如从默认值降低到 0.8 或更低),有助于模型生成更紧凑、不冗余的文本。
  4. 调整后保存设置,重新尝试配音。

请查阅相关文档:

并没有解决,每句配音前都会出现零点几秒的其他配音

这是由于 VoxCPM-TTS 模型在生成音频时,可能因上下文处理或缓存机制导致相邻句子的音频片段出现重叠。解决方案:在软件主界面,点击顶部菜单栏的 工具/选项 -> 高级选项。在弹出的窗口中,找到 字幕配音调整 区域。勾选 移除配音前后静音缓冲。此选项会在合成最终音频前,自动移除每条字幕配音前后的静音片段,有助于消除因模型处理产生的多余音频片段。如果问题依旧,可以尝试在 高级选项 -> 语音识别参数 区域,将 静音分割持续毫秒 适当增大(例如从默认的500ms增加到800ms),这可能会影响语音识别的分割,间接影响配音的起始点判断。请查阅相关文档:VoxCPM-0.5B 音色克隆一键整合包

问题仍然存在

暂无法确定具体原因。请提供软件安装目录下的 logs/ 文件夹中最新的日志文件(复制底部约30行报错信息)以便分析。

[INFO] Starting call to 'videotrans.tts._f5tts.F5TTS._item_task.._run', this is the 1st time calling it.
Loaded as API: http://127.0.0.1:8808/
[DEBUG] result=C:\Users\Administrator\AppData\Local\Temp\gradio\bf2e257d2bacda69d24d026800fe5603f5197014fe095152622e493eff2ab12e\audio.wav
[DEBUG] [FFMPEG-CMD]:
ffmpeg -hide_banner -ignore_unknown -threads 0 -y -i C:\Users\Administrator\AppData\Local\Temp\gradio\bf2e257d2bacda69d24d026800fe5603f5197014fe095152622e493eff2ab12e\audio.wav -ar 48000 -ac 2 -c:a pcm_s16le C:/Users/ADMINI~1/AppData/Local/Temp/pyvideotrans/1776261022.717233.wav

[DEBUG] [字幕配音]渠道20:共耗时:6s
[INFO] Starting call to 'videotrans.tts._f5tts.F5TTS._item_task.._run', this is the 1st time calling it.
Loaded as API: http://127.0.0.1:8808/
[DEBUG] result=C:\Users\Administrator\AppData\Local\Temp\gradio\b3ab83ae41ae53ae186824d38b47c0221a2dcbd1666890e95a71a371adf6de2f\audio.wav
[DEBUG] [FFMPEG-CMD]:
ffmpeg -hide_banner -ignore_unknown -threads 0 -y -i C:\Users\Administrator\AppData\Local\Temp\gradio\b3ab83ae41ae53ae186824d38b47c0221a2dcbd1666890e95a71a371adf6de2f\audio.wav -ar 48000 -ac 2 -c:a pcm_s16le C:/Users/ADMINI~1/AppData/Local/Temp/pyvideotrans/1776261033.562268.wav

[DEBUG] [字幕配音]渠道20:共耗时:6s

根据日志,您使用的是 F5-TTS 配音渠道,而非 VoxCPM-TTS。F5-TTS 在生成音频时,如果参考音频(用于克隆的音色)或模型设置不当,可能导致生成片段包含其他音频残留。

解决方案:

  1. 检查参考音频:如果您在配音时选择了 clone 角色,请确保原始视频的语音片段清晰、无背景噪音,且时长在 3-10秒 之间。过短或过长的参考音频都可能导致克隆效果不佳。
  2. 调整语音识别参数:在 菜单 -> 工具/选项 -> 高级选项 -> 语音识别参数 中,进行以下设置,以确保用于克隆的原始语音片段质量:

    • 最短语音持续毫秒:设置为 3000
    • 最长语音持续秒数:设置为 10
    • 勾选 Whisper预分割音频?合并过短字幕到邻近
  3. 调整配音参数:在 高级选项 -> 字幕配音调整 中,确保已勾选 移除配音前后静音缓冲
  4. 重启 F5-TTS 服务:关闭您本地运行的 F5-TTS API 服务(端口 8808),然后重新启动它,有时可以清除模型缓存状态。
  5. 尝试其他配音角色:暂时不使用 clone 角色,换用 F5-TTS 提供的其他预设角色进行测试,以判断问题是否与声音克隆过程有关。

请查阅相关文档:

VoxCPM-0.5B和VoxCPM-2.0我该下载哪个?

VoxCPM-0.5B 和 VoxCPM-2.0 的主要区别在于模型大小和效果。VoxCPM-0.5B:模型参数为 5亿,体积较小,对硬件要求较低,生成速度较快,但音质和自然度可能略逊于更大模型。VoxCPM-2.0:模型参数为 20亿,体积更大,对硬件(尤其是显存)要求更高,生成速度可能稍慢,但通常能产生更高质量、更自然的语音。选择建议:如果您的电脑显卡显存有限(例如小于 8GB),或追求更快的处理速度,建议下载 VoxCPM-0.5B。如果您的电脑显卡性能较强(例如显存大于 8GB),且希望获得最佳的配音音质,建议下载 VoxCPM-2.0。请查阅相关文档:VoxCPM-0.5B 音色克隆一键整合包

我配置的是VoxCPM-TTS,为什么显示的是F5-TTS

这是因为您在软件中配置的配音渠道是 F5-TTS,而不是 VoxCPM-TTS。软件界面显示的渠道名称和日志中记录的渠道代码(渠道20)都对应 F5-TTS。解决方案:在主界面的“配音渠道”下拉列表中,选择 VoxCPM-TTS。确保您已正确部署并启动了 VoxCPM-TTS 的 API 服务。在 菜单 -> 翻译设置 -> VoxCPM-TTS设置 中,正确填写其 API 地址(例如 http://127.0.0.1:端口号)。完成以上配置后,再进行配音,软件就会调用 VoxCPM-TTS 服务,日志中也将显示对应的渠道信息。请查阅相关文档:VoxCPM-0.5B 音色克隆一键整合包

image
我的配置有问题吗?

您的配置没有问题。您在主界面选择的配音渠道确实是 VoxCPM-TTS。然而,根据您之前提供的日志片段显示 渠道20,这对应的是 F5-TTS。这表明软件在运行时实际调用了 F5-TTS 服务。原因可能是:缓存或配置未生效:软件可能读取了旧的配置或缓存。请尝试完全关闭 pyVideoTrans 软件,然后重新启动。F5-TTS 服务仍在运行:您的电脑上可能同时运行着 F5-TTS 的 API 服务(默认端口可能是 7860 或 8808),并且 pyVideoTrans 在连接 VoxCPM-TTS 失败后,自动回退或错误地连接到了仍在运行的 F5-TTS 服务。解决方案:检查并关闭 F5-TTS 服务:确保您之前为 F5-TTS 打开的终端/命令行窗口已关闭。可以通过任务管理器检查是否有相关的 Python 进程在运行。确认 VoxCPM-TTS 服务已启动:确保您已按照 VoxCPM-TTS 的部署指南,成功启动了其 API 服务,并且端口号(例如 5500)与您在 pyVideoTrans 中配置的地址一致。重新启动软件:关闭 pyVideoTrans 和所有相关服务后,先启动 VoxCPM-TTS 服务,再启动 pyVideoTrans 软件。重新执行任务:重新选择一个视频进行配音测试,并观察新的日志是否显示调用 VoxCPM-TTS。请查阅相关文档:VoxCPM-0.5B 音色克隆一键整合包

[INFO] Starting call to 'videotrans.tts._f5tts.F5TTS._item_task.._run', this is the 1st time calling it.
Loaded as API: http://127.0.0.1:8808/
[DEBUG] result=C:\Users\Administrator\AppData\Local\Temp\gradio\05927348470c3dd09be167cbe4edb63d393c265b3ed1b5fbff7161a625eb0766\audio.wav
[DEBUG] [FFMPEG-CMD]:
ffmpeg -hide_banner -ignore_unknown -threads 0 -y -i C:\Users\Administrator\AppData\Local\Temp\gradio\05927348470c3dd09be167cbe4edb63d393c265b3ed1b5fbff7161a625eb0766\audio.wav -ar 48000 -ac 2 -c:a pcm_s16le C:/Users/ADMINI~1/AppData/Local/Temp/pyvideotrans/1776262024.2631283.wav

[DEBUG] [字幕配音]渠道20:共耗时:21s

问题依然没有解决,是不是软件BUG?

根据日志,软件仍然在调用 F5-TTS 服务(API地址为 http://127.0.0.1:8808)。这不是软件BUG,而是配置冲突或服务残留导致。根本原因是您的电脑上运行着 F5-TTS 服务(端口 8808),并且 pyVideoTrans 在内部渠道映射中,将 VoxCPM-TTS 错误地指向了 F5-TTS 的 API 地址。解决方案:强制停止 F5-TTS 服务:打开任务管理器,找到并结束所有与 F5-TTS 或 Python 相关的进程。或者,找到运行 F5-TTS 的命令行窗口并关闭它。检查并修正 VoxCPM-TTS 配置:在 pyVideoTrans 中,点击 菜单 -> 翻译设置 -> VoxCPM-TTS设置。确认 API 地址填写的是 VoxCPM-TTS 服务的正确地址(例如 http://127.0.0.1:5500,具体端口需根据您的 VoxCPM-TTS 部署确定),而不是 http://127.0.0.1:8808。重启服务与软件:首先,确保 VoxCPM-TTS 服务已在其正确的端口上启动。然后,重新启动 pyVideoTrans 软件。验证连接:在 pyVideoTrans 中,尝试使用 VoxCPM-TTS 进行一句配音试听,观察日志中加载的 API 地址是否已变为 VoxCPM-TTS 的地址。如果问题依旧,请检查软件安装目录下 config.json 或类似配置文件,查看 voxcpmtts 相关的配置项是否正确。请查阅相关文档:VoxCPM-0.5B 音色克隆一键整合包

并没有打开其他的端口,也没有运行F5-TTS服务

这是由于软件内部渠道配置错误或缓存导致的。渠道代码“20”在软件内部被硬编码为 F5-TTS,即使您界面上选择了 VoxCPM-TTS,软件仍错误地调用了 F5-TTS 的逻辑。解决方案:清理软件配置缓存:完全关闭 pyVideoTrans。删除软件安装目录下的 config.json 文件(如果存在)。重新启动 pyVideoTrans,软件会生成新的默认配置。重新配置 VoxCPM-TTS:启动后,再次进入 菜单 -> 翻译设置 -> VoxCPM-TTS设置,确认并保存正确的 API 地址。在主界面重新选择 VoxCPM-TTS 作为配音渠道,然后进行测试。检查软件版本:确保您使用的是最新版本的 pyVideoTrans (v3.99)。旧版本可能存在渠道映射的 Bug。下载地址:https://pyvideotrans.com/downpackage。如果以上步骤无效,这可能是当前版本软件的一个 Bug。您可以尝试暂时使用其他配音渠道(如 Edge-TTS),或等待后续版本修复。请查阅相关文档:VoxCPM-0.5B 音色克隆一键整合包

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource