把GPT-SoVITS接入pyVedioTrans后,选择训练好的音色,为字幕配音,生成的音频没有声音,下面是日志
Application started at 2026-02-01 19:57:22
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
First searching GPU...
Found 1 GPUs, cost=2s
start workers...
NVIDIA_GPU_NUMS=1
process_max_gpu=0
multi_gpus=False
Concurrent task_nums=1
process_max=0
start 8 jobs
ended workers
[DEBUG] GPT-SoVITS 当前需要发送的配音数据:data={'text': '你好啊,我亲爱的朋友,希望你的每一天都是美好愉快的!', 'text_lang': 'zh', 'ref_audio_path': '马保国.wav', 'prompt_text': '有两个年轻人,三十多岁,一个体重九十多公斤,一个体重八十多公斤。他们说呃,有一个说是。', 'prompt_lang': 'zh', 'speed_factor': 1.0, 'text_split_method': 'cut0'}
self.api_url='http://127.0.0.1:9880/tts'
[DEBUG] [字幕配音]渠道8:共耗时:3s
[DEBUG] GPT-SoVITS 当前需要发送的配音数据:data={'text': '你好啊,我亲爱的朋友,希望你的每一天都是美好愉快的!', 'text_lang': 'zh', 'ref_audio_path': '马保国.wav', 'prompt_text': '有两个年轻人,三十多岁,一个体重九十多公斤,一个体重八十多公斤。他们说呃,有一个说是。', 'prompt_lang': 'zh', 'speed_factor': 1.0, 'text_split_method': 'cut0'}
self.api_url='http://127.0.0.1:988
......
ethod': 'cut0'}
self.api_url='http://127.0.0.1:9880/tts'
[DEBUG] cmd=['F:/ai/win-pyvideotrans-v3.96/ffmpeg/ffmpeg.exe', '-hide_banner', '-ignore_unknown', '-threads', '0', '-y', '-i', 'F:/ai/win-pyvideotrans-v3.96/tmp/1148/b676fa3c1c/dubb-13.wav.wav', '-ar', '48000', '-ac', '2', '-c:a', 'pcm_s16le', 'F:/ai/win-pyvideotrans-v3.96/tmp/1148/b676fa3c1c/dubb-13.wav']
[DEBUG] GPT-SoVITS 当前需要发送的配音数据:data={'text': '靜待艾爾登之王現身', 'text_lang': 'zh', 'ref_audio_path': '马保国.wav', 'prompt_text': '有两个年轻人,三十多岁,一个体重九十多公斤,一个体重八十多公斤。他们说呃,有一个说是。', 'prompt_lang': 'zh', 'speed_factor': 1.0, 'text_split_method': 'cut0'}
self.api_url='http://127.0.0.1:9880/tts'
[DEBUG] cmd=['F:/ai/win-pyvideotrans-v3.96/ffmpeg/ffmpeg.exe', '-hide_banner', '-ignore_unknown', '-threads', '0', '-y', '-i', 'F:/ai/win-pyvideotrans-v3.96/tmp/1148/b676fa3c1c/dubb-14.wav.wav', '-ar', '48000', '-ac', '2', '-c:a', 'pcm_s16le', 'F:/ai/win-pyvideotrans-v3.96/tmp/1148/b676fa3c1c/dubb-14.wav']
[DEBUG] GPT-SoVITS 当前需要发送的配音数据:data={'text': '.. 還是说, 你就是那個人?', 'text_lang': 'zh', 'ref_audio_path': '马保国.wav', 'prompt_text': '有两个年轻人,三十多岁,一个体重九十多公斤,一个体重八十多公斤。他们说呃,有一个说是。', 'prompt_lang': 'zh', 'speed_factor': 1.0, 'text_split_method': 'cut0'}
self.api_url='http://127.0.0.1:9880/tts'
[DEBUG] cmd=['F:/ai/win-pyvideotrans-v3.96/ffmpeg/ffmpeg.exe', '-hide_banner', '-ignore_unknown', '-threads', '0', '-y', '-i', 'F:/ai/win-pyvideotrans-v3.96/tmp/1148/b676fa3c1c/dubb-15.wav.wav', '-ar', '48000', '-ac', '2', '-c:a', 'pcm_s16le', 'F:/ai/win-pyvideotrans-v3.96/tmp/1148/b676fa3c1c/dubb-15.wav']
[DEBUG] [字幕配音]渠道8:共耗时:59s
进入执行对齐阶段
[DEBUG] 允许的最大音频加速倍数=100.0,允许的最大视频慢放倍数=10.0
[DEBUG] SpeedRate 初始化。音频加速: False, 视频慢速: False
[DEBUG] 所有中间音频将统一为: 48000Hz, 2 声道。
[DEBUG] 检测到未启用音视频变速,进入纯净拼接模式。
[DEBUG]
=
=
[音频不加速,视频不慢速,不移除字幕间空隙,不需要对齐] 开始处理
=
=
[DEBUG] 字幕[1]前,生成静音片段 8509ms
[DEBUG] 字幕[1] 已生成配音片段,配音时长: 1620ms, 原时长 1700
[DEBUG] 字幕[2]前,生成静音片段 6775ms
[DEBUG] 字幕[2] 已生成配音片段,配音时长: 2660ms, 原时长 2234
[DEBUG] 字幕[3]前,生成静音片段 5307ms
[DEBUG] 字幕[3] 已生成配音片段,配音时长: 2660ms, 原时长 2101
[DEBUG] 字幕[4]前,生成静音片段 7508ms
[DEBUG] 字幕[4] 已生成配音片段,配音时长: 2540ms, 原时长 2268
[DEBUG] 字幕[5]前,生成静音片段 7108ms
[DEBUG] 字幕[5] 已生成配音片段,配音时长: 5620ms, 原时长 7507
[DEBUG] 字幕[6]前,生成静音片段 10278ms
[DEBUG] 字幕[6] 已生成配音片段,配音时长: 3740ms, 原时长 3135
[DEBUG] 字幕[7]前,生成静音片段 12714ms
[DEBUG] 字幕[7] 已生成配音片段,配音时长: 3500ms, 原时长 4270
[DEBUG] 字幕[8]前,生成静音片段 1202ms
[DEBUG] 字幕[8] 已生成配音片段,配音时长: 4540ms, 原时长 5805
[DEBUG] 字幕[9]前,生成静音片段 21722ms
[DEBUG] 字幕[9] 已生成配音片段,配音时长: 3340ms, 原时长 3870
[DEBUG] 字幕[10]前,生成静音片段 19687ms
[DEBUG] 字幕[10] 已生成配音片段,配音时长: 3060ms, 原时长 3303
[DEBUG] 字幕[11]前,生成静音片段 8109ms
[DEBUG] 字幕[11] 已生成配音片段,配音时长: 4020ms, 原时长 2301
[DEBUG] 字幕[12]前,生成静音片段 2036ms
[DEBUG] 字幕[12] 已生成配音片段,配音时长: 4180ms, 原时长 4537
[DEBUG] 字幕[13]前,生成静音片段 16284ms
[DEBUG] 字幕[13] 已生成配音片段,配音时长: 2380ms, 原时长 1934
[DEBUG] 字幕[14]前,生成静音片段 8577ms
[DEBUG] 字幕[14] 已生成配音片段,配音时长: 4100ms, 原时长 3235
[DEBUG] 字幕[15]前,生成静音片段 1569ms
[DEBUG] 字幕[15] 已生成配音片段,配音时长: 2540ms, 原时长 2635
[DEBUG] 字幕[16]前,生成静音片段 5273ms
[DEBUG] 字幕[16] 已生成配音片段,配音时长: 4780ms, 原时长 5338
[DEBUG] concat_txt='F:/ai/win-pyvideotrans-v3.96/tmp/1148/b676fa3c1c/audio_concat_list.txt',filelist[0]='F:/ai/win-pyvideotrans-v3.96/tmp/1148/b676fa3c1c/jingyin_0_1769947354.2026348.wav'
[DEBUG] cmd=['F:/ai/win-pyvideotrans-v3.96/ffmpeg/ffmpeg.exe', '-hide_banner', '-ignore_unknown', '-threads', '0', '-y', '-f', 'concat', '-safe', '0', '-i', 'F:/ai/win-pyvideotrans-v3.96/tmp/1148/b676fa3c1c/audio_concat_list.txt', '-c:a', 'copy', 'F:/ai/win-pyvideotrans-v3.96/tmp/1148/b676fa3c1c/endout.wav']
[DEBUG] cmd=['F:/ai/win-pyvideotrans-v3.96/ffmpeg/ffmpeg.exe', '-hide_banner', '-ignore_unknown', '-threads', '0', '-y', '-progress', 'F:/ai/win-pyvideotrans-v3.96/tmp/1148/b676fa3c1c/rate_audio_1769947354.3010848.txt', '-i', 'F:/ai/win-pyvideotrans-v3.96/tmp/1148/b676fa3c1c/endout.wav', '-c:a', 'libmp3lame', 'F:/ai/win-pyvideotrans-v3.96/output/tts/hh-20260201-200234.mp3']
进入执行完成阶段