#5305 为什么提取音频后就卡住进度了,翻译可以正常使用

45.38* Posted at: 1 day ago

为什么提取音频后就卡住进度了,翻译可以正常使用

32 Replies

提取音频后卡住,通常是因为视频文件路径含有中文/空格/特殊符号、启用了极慢的人声背景分离,或者FFmpeg依赖异常。

请按顺序尝试以下步骤:

  1. 路径规范化:确保视频文件存放在盘符根目录(如 D:\myvideo.mp4),文件名只包含英文字母、数字和下划线。同时确认软件本身也解压在没有中文和空格的路径下(推荐 D:\pyVideoTrans)。
  2. 关闭人声分离:如果在“设置更多参数”中勾选了“分离人声背景声”,该过程仅用CPU且极慢(可能数十分钟无反应)。请取消勾选此项后重试。
  3. 重新安装FFmpeg依赖:如果是完整版打包,进入软件目录的 ffmpeg 文件夹,检查是否存在 ffmpeg.exeffprobe.exe。若缺失或损坏,请重新下载完整版压缩包解压覆盖。
  4. 检查日志定位错误:打开 logs/ 目录下的最新 .log 文件,搜索 [error]exception,将末尾约30行内容提供给我进一步分析。

如果以上仍无法解决,请提供日志。

Message: "无法连接 huggingface.co, 使用镜像替换: hf-mirror.com\nHTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded with url: / (Caused by ConnectTimeoutError(, 'Connection to huggingface.co timed out. (connect timeout=3)'))"
Arguments: ()
[DEBUG] [TransCreate]最终配置信息:self=TransCreate(uuid='6b1db1bff3', proxy_str=None, last_down_time=0, precent=1, hasend=False, should_recogn=True, should_trans=True, should_dubbing=False, should_separate=False, should_hebing=False, source_srt_list=[], target_srt_list=[], video_time=0.0, is_copy_video=False, video_codec_num=264, ignore_align=False, is_audio_trans=True, clone_ref='', cost_duration=1781795571.384994, should_recogn2=False)
self.cfg=TaskCfgVTT(uuid='6b1db1bff3', name='D:/download/RJ01589783/RJ01589783/简体中文/MP3/1 开场〜欢迎来到和耳温泉乡♪.mp3', dirname='D:/download/RJ01589783/RJ01589783/简体中文/MP3', noextname='1 开场〜欢迎来到和耳温泉乡♪', basename='1 开场〜欢迎来到和耳温泉乡♪.mp3', ext='mp3', target_dir='1 开场〜欢迎来到和耳温泉乡♪-mp3', cache_folder='D:/download/12/tmp/8460/6b1db1bff3', is_cuda=True, source_language='日语', source_language_code='ja', source_sub='1 开场〜欢迎来到和耳温泉乡♪-mp3/ja.srt', source_wav='D:/download/12/tmp/8460/6b1db1bff3/ja.wav', source_wav_output='1 开场〜欢迎来到和耳温泉乡♪-mp3/ja.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='1 开场〜欢迎来到和耳温泉乡♪-mp3/zh-cn.srt', target_wav='D:/download/12/tmp/8460/6b1db1bff3/target.wav', target_wav_output='1 开场〜欢迎来到和耳温泉乡♪-mp3/zh-cn.m4a', translate_type=4, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='ja', recogn_type=13, model_name='large-v3-turbo', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='1 开场〜欢迎来到和耳温泉乡♪-mp3/1 开场〜欢迎来到和耳温泉乡♪.mp4', novoice_mp4='D:/download/12/tmp/8460/6b1db1bff3/novoice.mp4', is_separate=False, embed_bgm=True, instrument=None, vocal=None, clear_cache=True, background_music='', subtitle_type=0, only_out_mp4=True, recogn2pass=False, output_srt=0, copysrt_rawvideo=True, loop_backaudio=0, backaudio_volume=0.8)
[DEBUG] The file info after process:result={'video_fps': 30, 'r_frame_rate': 30, 'video_codec_name': '', 'audio_codec_name': 'mp3', 'width': 0, 'height': 0, 'time': 721368, 'streams_len': 1, 'streams_audio': 1, 'video_streams': 0, 'color': 'yuv420p'}

[DEBUG] 开始语音识别:渠道13
[DEBUG] Faster_Whisper_XXL: cmdstr='D:/download/PotPlayer/Engine/Faster-Whisper-XXL/faster-whisper-xxl.exe D:/download/12/tmp/8460/6b1db1bff3/ja.wav -pp -f srt -ct default -l ja --model large-v3-turbo --output_dir D:/download/12/tmp/8460/6b1db1bff3'
outsrt_file='D:/download/12/tmp/8460/6b1db1bff3/ja.srt'

日志显示卡住的根本原因是 Faster-Whisper-XXL 在下载 large-v3-turbo 模型时无法连接 huggingface.co,虽然尝试切换到镜像但最终超时。而“翻译可以正常使用”是因为翻译阶段不依赖该模型。

请按以下顺序尝试:

  1. 为软件配置网络代理
    如果你能访问外网(例如有VPN),在主界面第五行“网络代理”框中填入代理地址,例如 http://127.0.0.1:7890(端口根据你的代理软件填写)。
  2. 切换到内置 faster-whisper 渠道
    在“语音识别渠道”中选择 faster-whisper(本地)(而非外置的 Faster-Whisper-XXL),该渠道内置镜像下载机制,成功率更高。
  3. 手动下载模型并放置到指定文件夹
    如果网络始终不通,手动下载 large-v3-turbo 模型:

    • 在软件根目录下的 models 文件夹内创建 models--mobiuslabsgmbh--faster-whisper-large-v3-turbo 文件夹。
    • HuggingFace 镜像 下载所有 .bin.json.txt 文件放入该文件夹。
    • 重新启动软件,选择 faster-whisper(本地) 渠道并指定 large-v3-turbo 模型。

如果仍卡住,请提供 logs/ 目录下最新的日志文件末尾约30行,以便进一步排查。

Faster-Whisper-XXL 怎么用这个,我再本地有文件

Faster-Whisper-XXL 默认会从 HuggingFace 在线下载模型。你本地已有模型文件,需要手动将模型放到它识别的缓存目录中,从而跳过下载。请按以下步骤操作:1. 找到模型缓存目录:在 Faster-Whisper-XXL 可执行文件(faster-whisper-xxl.exe)所在的文件夹下,创建或进入 models 子目录(与 exe 同级的 models 文件夹)。例如你的路径是 D:/download/PotPlayer/Engine/Faster-Whisper-XXL/models/。2. 放置模型文件:将你本地已有的 large-v3-turbo 模型文件放到该 models 目录下。注意文件夹命名必须与模型名一致:models--mobiuslabsgmbh--faster-whisper-large-v3-turbo。即完整路径应为 D:/download/PotPlayer/Engine/Faster-Whisper-XXL/models/models--mobiuslabsgmbh--faster-whisper-large-v3-turbo/,里面包含所有 .bin.json.txt 等文件。3. 重新执行任务:回到 pyVideoTrans,再次点击“开始执行”,此时 Faster-Whisper-XXL 会优先读取本地缓存而不再联网下载。如果仍报错,可尝试在 pyVideoTrans 中改用内置的 faster-whisper(本地) 渠道(非 XXL 版本),并将模型选择为 large-v3-turbo。内置渠道同样会读取 软件目录/models/ 下的模型文件,无需额外配置。

语音识别阶段出错[Faster-Whisper-XXL.exe] An error occured while synchronizing the model Purfview/faster-whisper-large-v3-turbo from the Hugging Face Hub:
An error happened while trying to locate the file on the Hub and we cannot find the requested files in the local cache. Please check your connection and try again or make sure your Internet connection is on.
Trying to load the model directly from the local cache, if it exists.
Traceback (most recent call last):
File "huggingface_hub\file_download.py", line 1266, in hf_hub_download
huggingface_hub.utils._errors.FileMetadataError: Distant resource does not seem to be on huggingface.co. It is possible that a configuration issue prevents you from downloading resources from https://huggingface.co. Please check your firewall and proxy settings and make sure your SSL certificates are updated.

The above exception was the direct cause of the following exception:

Traceback (most recent call last):
File "faster_whisper\utils.py", line 23
......
n run
File "huggingface_hub\_snapshot_download.py", line 213, in _inner_hf_hub_download
File "huggingface_hub\utils\_validators.py", line 118, in _inner_fn
File "huggingface_hub\file_download.py", line 1377, in hf_hub_download
huggingface_hub.utils._errors.LocalEntryNotFoundError: An error happened while trying to locate the file on the Hub and we cannot find the requested files in the local cache. Please check your connection and try again or make sure your Internet connection is on.

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "D:\whisper-fast-XXL\__main__.py", line 2324, in
File "D:\whisper-fast-XXL\__main__.py", line 1650, in cli
File "faster_whisper\utils.py", line 250, in download_model
File "huggingface_hub\utils\_validators.py", line 118, in _inner_fn
File "huggingface_hub\_snapshot_download.py", line 178, in snapshot_download
ValueError: Cannot find an appropriate cached snapshot folder for the specified revision on the local disk and outgoing traffic has been disabled. To enable repo look-ups and downloads online, set 'local_files_only' to False.
[PYI-19732:ERROR] Failed to execute script '__main__' due to unhandled exception!

Model not found at: D:\download\PotPlayer\Engine\Faster-Whisper-XXL\_models\faster-whisper-large-v3-turbo
Attempting to download:

TaskCfgVTT(uuid='657e552bbd', name='D:/download/RJ01588893/RJ01588893/01:mp3/Track00_标题朗读.mp3', dirname='D:/download/RJ01588893/RJ01588893/01:mp3', noextname='Track00_标题朗读', basename='Track00_标题朗读.mp3', ext='mp3', target_dir='Track00_标题朗读-mp3', cache_folder='D:/download/12/tmp/23236/657e552bbd', is_cuda=True, source_language='日语', source_language_code='ja', source_sub='Track00_标题朗读-mp3/ja.srt', source_wav='D:/download/12/tmp/23236/657e552bbd/ja.wav', source_wav_output='Track00_标题朗读-mp3/ja.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='Track00_标题朗读-mp3/zh-cn.srt', target_wav='D:/download/12/tmp/23236/657e552bbd/target.wav', target_wav_output='Track00_标题朗读-mp3/zh-cn.m4a', translate_type=4, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='ja', recogn_type=13, model_name='large-v3-turbo', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='Track00_标题朗读-mp3/Track00_标题朗读.mp4', novoice_mp4='D:/download/12/tmp/23236/657e552bbd/novoice.mp4', is_separate=False, embed_bgm=True, instrument=None, vocal='D:/download/12/tmp/23236/657e552bbd/vocal.wav', clear_cache=True, background_music='', subtitle_type=0, only_out_mp4=True, recogn2pass=False, output_srt=0, copysrt_rawvideo=True, loop_backaudio=0, backaudio_volume=0.8)

system:Windows-10-10.0.26100-SP0
version:v4.01
frozen:True
language:zh
root_dir:D:/download/12

日志显示 Faster-Whisper-XXL 在以下路径查找模型:D:\download\PotPlayer\Engine\Faster-Whisper-XXL\_models\faster-whisper-large-v3-turbo

而你之前放置的文件夹名称是 models--mobiuslabsgmbh--faster-whisper-large-v3-turbo,名称不匹配,因此未识别。请按以下步骤修正:1. 进入 D:\download\PotPlayer\Engine\Faster-Whisper-XXL 目录下的 _models 文件夹(如果不存在则创建 _models 文件夹)。2. 将你本地已有的模型文件夹重命名为 faster-whisper-large-v3-turbo(注意没有前缀 models--mobiuslabsgmbh--,就是纯模型名)。文件夹内应包含所有 .bin.json.txt 等文件。3. 重新启动 pyVideoTrans,再次执行任务。如果仍失败,可改用内置的 faster-whisper(本地) 渠道(在语音识别渠道中选择此项,模型选 large-v3-turbo),该渠道会自动读取软件根目录 models/ 下的模型(需将模型放在 models/models--mobiuslabsgmbh--faster-whisper-large-v3-turbo 下),无需配置 XXL 路径。

语音识别阶段出错[Faster-Whisper-XXL.exe] An error occured while synchronizing the model Purfview/faster-whisper-large-v3-turbo from the Hugging Face Hub:
An error happened while trying to locate the file on the Hub and we cannot find the requested files in the local cache. Please check your connection and try again or make sure your Internet connection is on.
Trying to load the model directly from the local cache, if it exists.
Traceback (most recent call last):
File "huggingface_hub\file_download.py", line 1266, in hf_hub_download
huggingface_hub.utils._errors.FileMetadataError: Distant resource does not seem to be on huggingface.co. It is possible that a configuration issue prevents you from downloading resources from https://huggingface.co. Please check your firewall and proxy settings and make sure your SSL certificates are updated.

The above exception was the direct cause of the following exception:

Traceback (most recent call last):
File "faster_whisper\utils.py", line 23
......
in run
File "huggingface_hub\_snapshot_download.py", line 213, in _inner_hf_hub_download
File "huggingface_hub\utils\_validators.py", line 118, in _inner_fn
File "huggingface_hub\file_download.py", line 1377, in hf_hub_download
huggingface_hub.utils._errors.LocalEntryNotFoundError: An error happened while trying to locate the file on the Hub and we cannot find the requested files in the local cache. Please check your connection and try again or make sure your Internet connection is on.

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "D:\whisper-fast-XXL\__main__.py", line 2324, in
File "D:\whisper-fast-XXL\__main__.py", line 1650, in cli
File "faster_whisper\utils.py", line 250, in download_model
File "huggingface_hub\utils\_validators.py", line 118, in _inner_fn
File "huggingface_hub\_snapshot_download.py", line 178, in snapshot_download
ValueError: Cannot find an appropriate cached snapshot folder for the specified revision on the local disk and outgoing traffic has been disabled. To enable repo look-ups and downloads online, set 'local_files_only' to False.
[PYI-7808:ERROR] Failed to execute script '__main__' due to unhandled exception!

Model not found at: D:\download\PotPlayer\Engine\Faster-Whisper-XXL\_models\faster-whisper-large-v3-turbo
Attempting to download:

TaskCfgVTT(uuid='657e552bbd', name='D:/download/RJ01588893/RJ01588893/01:mp3/Track00_标题朗读.mp3', dirname='D:/download/RJ01588893/RJ01588893/01:mp3', noextname='Track00_标题朗读', basename='Track00_标题朗读.mp3', ext='mp3', target_dir='Track00_标题朗读-mp3', cache_folder='D:/download/12/tmp/23236/657e552bbd', is_cuda=True, source_language='日语', source_language_code='ja', source_sub='Track00_标题朗读-mp3/ja.srt', source_wav='D:/download/12/tmp/23236/657e552bbd/ja.wav', source_wav_output='Track00_标题朗读-mp3/ja.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='Track00_标题朗读-mp3/zh-cn.srt', target_wav='D:/download/12/tmp/23236/657e552bbd/target.wav', target_wav_output='Track00_标题朗读-mp3/zh-cn.m4a', translate_type=4, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='ja', recogn_type=13, model_name='large-v3-turbo', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='Track00_标题朗读-mp3/Track00_标题朗读.mp4', novoice_mp4='D:/download/12/tmp/23236/657e552bbd/novoice.mp4', is_separate=False, embed_bgm=True, instrument=None, vocal='D:/download/12/tmp/23236/657e552bbd/vocal.wav', clear_cache=True, background_music='', subtitle_type=0, only_out_mp4=True, recogn2pass=False, output_srt=0, copysrt_rawvideo=True, loop_backaudio=0, backaudio_volume=0.8)

system:Windows-10-10.0.26100-SP0
version:v4.01
frozen:True
language:zh
root_dir:D:/download/12

错误仍然表明 Faster-Whisper-XXL 在指定路径 D:\download\PotPlayer\Engine\Faster-Whisper-XXL\_models\faster-whisper-large-v3-turbo 下找不到完整模型文件。请按以下顺序尝试解决:方案一(推荐):改用 pyVideoTrans 内置的 faster-whisper 渠道1. 在“语音识别渠道”中选择 faster-whisper(本地)(而非 Faster-Whisper-XXL.exe)。2. 模型选择 large-v3-turbo。3. 确保本地模型文件已正确放置到软件根目录下的 models 文件夹中,路径应为:你的pyVideoTrans目录/models/models--mobiuslabsgmbh--faster-whisper-large-v3-turbo/,内含所有 .bin.json.txt 文件。4. 直接点击开始执行,内置渠道会自动加载该路径的模型,无需额外配置。方案二:修正 XXL 的模型路径如果坚持使用 XXL,请严格按以下步骤操作:1. 进入 D:\download\PotPlayer\Engine\Faster-Whisper-XXL\_models 文件夹(若不存在则手动创建)。2. 在该文件夹内创建一个名为 faster-whisper-large-v3-turbo(不要加任何前缀,注意拼写正确)的文件夹。3. 将你已有的所有模型文件(config.json、preprocessor_config.json、tokenizer.json、model.bin 等)复制到这个 faster-whisper-large-v3-turbo 文件夹中。4. 确保该文件夹下没有嵌套多余的子目录,模型文件直接位于该文件夹内。5. 重新执行任务。如果仍报错,请在 _models 文件夹下创建 models--Purfview--faster-whisper-large-v3-turbo 文件夹并放入模型文件(虽然 XXL 默认识别 Purfview/ 前缀,但根据日志它最终查找的是 Purfview/faster-whisper-large-v3-turbo,兼容旧格式)。强烈建议优先采用方案一,以避免路径错误导致的反复尝试。

语音识别阶段出错[Faster-Whisper-XXL.exe] Exception in thread Thread-2 (pbar_delayed):
Traceback (most recent call last):
File "threading.py", line 1016, in _bootstrap_inner
File "threading.py", line 953, in run
File "D:\whisper-fast-XXL\__main__.py", line 2171, in pbar_delayed
IndexError: list index out of range
Exception in thread Thread-3 (pbar_delayed):
Traceback (most recent call last):
File "threading.py", line 1016, in _bootstrap_inner
File "threading.py", line 953, in run
File "D:\whisper-fast-XXL\__main__.py", line 2171, in pbar_delayed
IndexError: list index out of range
Exception in thread Thread-4 (pbar_delayed):
Traceback (most recent call last):
File "threading.py", line 1016, in _bootstrap_inner
File "threading.py", line 953, in run
File "D:\whisper-fast-XXL\__main__.py", line 2171, in pbar_delayed
IndexError: list index out of range
Exception in thread Thread-5 (pbar_delayed):
Traceback (most recent call last):
File "threading.py", line 10
......
run
File "D:\whisper-fast-XXL\__main__.py", line 2171, in pbar_delayed
IndexError: list index out of range
Exception in thread Thread-13 (pbar_delayed):
Traceback (most recent call last):
File "threading.py", line 1016, in _bootstrap_inner
File "threading.py", line 953, in run
File "D:\whisper-fast-XXL\__main__.py", line 2171, in pbar_delayed
IndexError: list index out of range
Exception in thread Thread-14 (pbar_delayed):
Traceback (most recent call last):
File "threading.py", line 1016, in _bootstrap_inner
File "threading.py", line 953, in run
File "D:\whisper-fast-XXL\__main__.py", line 2171, in pbar_delayed
IndexError: list index out of range
Exception in thread Thread-15 (pbar_delayed):
Traceback (most recent call last):
File "threading.py", line 1016, in _bootstrap_inner
File "threading.py", line 953, in run
File "D:\whisper-fast-XXL\__main__.py", line 2171, in pbar_delayed
IndexError: list index out of range
Traceback (most recent call last):
File "D:\whisper-fast-XXL\__main__.py", line 2324, in
File "D:\whisper-fast-XXL\__main__.py", line 2211, in cli
IndexError: list index out of range
[PYI-22324:ERROR] Failed to execute script '__main__' due to unhandled exception!

Standalone Faster-Whisper-XXL r245.4 running on: CUDA

Note: 'large-v3' model may produce worse results than 'large-v2'!

Starting to process: D:/download/12/tmp/23236/657e552bbd/ja.wav

Starting sequential faster-whisper inference.
TaskCfgVTT(uuid='657e552bbd', name='D:/download/RJ01588893/RJ01588893/01:mp3/Track00_标题朗读.mp3', dirname='D:/download/RJ01588893/RJ01588893/01:mp3', noextname='Track00_标题朗读', basename='Track00_标题朗读.mp3', ext='mp3', target_dir='Track00_标题朗读-mp3', cache_folder='D:/download/12/tmp/23236/657e552bbd', is_cuda=True, source_language='日语', source_language_code='ja', source_sub='Track00_标题朗读-mp3/ja.srt', source_wav='D:/download/12/tmp/23236/657e552bbd/ja.wav', source_wav_output='Track00_标题朗读-mp3/ja.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='Track00_标题朗读-mp3/zh-cn.srt', target_wav='D:/download/12/tmp/23236/657e552bbd/target.wav', target_wav_output='Track00_标题朗读-mp3/zh-cn.m4a', translate_type=4, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='ja', recogn_type=13, model_name='large-v3-turbo', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='Track00_标题朗读-mp3/Track00_标题朗读.mp4', novoice_mp4='D:/download/12/tmp/23236/657e552bbd/novoice.mp4', is_separate=False, embed_bgm=True, instrument=None, vocal='D:/download/12/tmp/23236/657e552bbd/vocal.wav', clear_cache=True, background_music='', subtitle_type=0, only_out_mp4=True, recogn2pass=False, output_srt=0, copysrt_rawvideo=True, loop_backaudio=0, backaudio_volume=0.8)

这个错误是 Faster-Whisper-XXL 程序本身的一个 Bug(进度条线程索引越界),与你的模型文件或网络无关。日志中显示版本为 r245.4,该版本存在已知的稳定性问题。强烈建议你放弃使用外置的 Faster-Whisper-XXL.exe,改用 pyVideoTrans 自带的内置 faster-whisper(本地) 渠道,它更稳定且无需额外配置。请按以下步骤操作:1. 在“语音识别渠道”中选择 faster-whisper(本地),模型选择 large-v3-turbo。2. 确保你已有的模型文件已正确放置到软件根目录的 models 文件夹内: - 路径为 你的pyVideoTrans目录/models/models--mobiuslabsgmbh--faster-whisper-large-v3-turbo/ - 文件夹内直接包含所有 .bin.json.txt 等文件,不要嵌套多余子目录。3. 重新点击“开始执行”。内置渠道会直接使用本地模型,无需联网下载,也不会出现 XXL 的 Bug。如果仍想尝试使用 XXL,可以尝试更新到最新版本的 Faster-Whisper-XXL(r245.4+ 的补丁版本),或将模型改为 large-v2 以规避兼容性问题,但鉴于已反复出错,不推荐。

Faster-Whisper-XXL.exe我咋IPOT
PLAYER就可以提取字幕

这个问题是因为 pyVideoTrans 和 PotPlayer 调用 Faster-Whisper-XXL 的命令行参数可能不同,pyVideoTrans 传递的某些参数(如 -ct default-pp)触发了 XXL r245.4 版本内部的一个进度条 Bug,导致索引越界崩溃。PotPlayer 可能使用了更简单的参数,避开了该 Bug。考虑到你已经尝试多次且失败,建议彻底放弃使用外置的 Faster-Whisper-XXL.exe,改用 pyVideoTrans 自带的 faster-whisper(本地) 渠道。该渠道稳定性更高,且你的 large-v3-turbo 模型可以直接复用。操作步骤:1. 在“语音识别渠道”下拉菜单中选择 faster-whisper(本地)。2. 模型选择 large-v3-turbo。3. 确保本地模型文件已正确放置: 软件根目录/models/models--mobiuslabsgmbh--faster-whisper-large-v3-turbo/ 文件夹内直接包含 config.json、model.bin 等所有文件(不要嵌套子文件夹)。4. 取消勾选“清理已生成”(避免使用旧缓存),直接点击“开始执行”。内置渠道会自动加载本地模型,无需联网,也不会出现 XXL 的 Bug。

Faster-Whisper-XXL.exe我咋IPOT
PLAYER就可以提取字幕

PotPlayer 调用 Faster-Whisper-XXL 成功,是因为它使用了不同的命令行参数,绕过了该版本(r245.4)的进度条 Bug。pyVideoTrans 的 Faster-Whisper-XXL 渠道参数固定,无法修改,因此始终会触发该错误。你有两个选择:方案 A:改用内置 faster-whisper (本地) 渠道(推荐)将语音识别渠道切换到 faster-whisper(本地),模型选 large-v3-turbo。你已有的模型文件可复用,直接放到软件根目录 models/models--mobiuslabsgmbh--faster-whisper-large-v3-turbo/ 下即可。内置渠道无此 Bug,且支持 CUDA 加速。方案 B:使用 PotPlayer 提取字幕,再导入 pyVideoTrans(不依赖 XXL 集成)1. 用 PotPlayer 调用 Faster-Whisper-XXL 提取出源语言的 SRT 字幕文件(例如 ja.srt)。2. 将原始音频/视频文件和 ja.srt 按照知识库第 6 节的步骤放置: - 在视频同级目录创建 _video_out 文件夹。 - 在 _video_out 内创建子文件夹,命名格式为 [文件名]-[格式后缀](例如 Track00_标题朗读-mp3)。 - 将 PotPlayer 生成的 ja.srt 复制进去。3. 在 pyVideoTrans 中导入该视频,软件会检测到已有字幕,自动跳过 ASR 阶段,直接进入翻译和配音。这样既利用了 PotPlayer 成功的 XXL,又避免了 pyVideoTrans 调用时的 Bug。

然后是生成的的音频怎么让它倒回去实现双语音声的目的

pyVideoTrans 的视频翻译功能默认会替换原始说话声音(即配音覆盖原声),无法直接生成原始语音和配音同时播放的“双语音声”。如果您希望保留原声的同时加入配音,可通过以下替代方案实现:方案一:只加字幕不配音,保留原声在“配音渠道”行选择“不配音”,此时只添加双语字幕,原声完全保留。方案二:后期用第三方工具混音1. 在 pyVideoTrans 中正常执行翻译配音,得到替换了声音的最终视频。2. 另外导出原始音频(可以在临时目录中找到原始音频文件,或从原视频中提取)。3. 使用 Audacity、剪映、Premiere 等工具将原始音频与配音音频混合,调整各自音量比例,然后覆盖原音轨。方案三:利用“嵌入背景声”功能(仅保留背景音乐,并非人声)在主界面“设置更多参数”中勾选“分离人声背景声”和“嵌入背景”,可以在最终视频中保留原背景音乐,但原人声仍然会被替换,无法实现双语人声同时存在。如果您需要更具体的操作步骤(例如如何提取原始音频),请提供您的具体需求场景,我可以给出进一步指引。

批量合并音频

pyVideoTrans 没有提供“批量合并多个音频文件”的独立功能。根据你之前的对话(双语音声),推测你可能是想将原始音频和配音音频批量混合,或者将多个配音片段合并成一个长音频。

请说明你的具体需求:

  • 是想把多个独立的音频文件(例如多条配音片段)拼接成一个长音频?
  • 还是想为多个视频分别生成混合了原声和配音的音频?
  • 或者是其他场景?

明确后我可以给出在 pyVideoTrans 或使用 ffmpeg 命令行的实现方案。

第二个,还有就是怎么让配音放到原来的文件夹里

pyVideoTrans 目前不提供直接将原声和配音同时保留的“双语音声”功能。要实现批量混合原声与配音并保存到原文件夹,请按以下方案操作。


1. 让配音输出到原视频文件夹

在“翻译视频和音频”主界面,点击“输出到..”按钮,在弹出的文件夹选择对话框中直接选择原视频所在的文件夹(例如 D:\download\RJ01588893\01:mp3),然后点击“开始执行”。生成的最终视频和中间文件都会保存到该目录下,而不是默认的 _video_out


2. 批量实现双语音声(原声 + 配音同时播放)

由于软件不可直接生成混合人声,你需要在完成翻译配音后,自行混音。建议使用 ffmpeg 命令批量处理。假设你已经完成了所有视频的翻译配音,得到了一批视频文件(例如 output/*.mp4,配音已替换原声),原始视频原文件在 original/ 目录。

批量混音脚本思路(以 Windows 批处理为例)

@echo off
setlocal enabledelayedexpansion
set "ffmpeg=C:\ffmpeg\bin\ffmpeg.exe"   REM 请替换为你的 ffmpeg 路径

for %%i in ("original\*.mp4") do (
    set "filename=%%~ni"
    set "output_video=output\!filename!_混合.mp4"
    REM 将原声 (input1) 与配音 (input2) 混合,音量各 50%
    "%ffmpeg%" -i "%%i" -i "output\!filename!.mp4" ^
        -filter_complex "[0:a:0]volume=0.5[a1];[1:a:0]volume=0.5[a2];[a1][a2]amix=inputs=2:duration=first[out]" ^
        -map 0:v -map "[out]" -c:v copy -c:a aac -b:a 192k "!output_video!"
)

说明

  • original\*.mp4 改为你的原视频文件夹和扩展名。
  • output\*.mp4 改为 pyVideoTrans 生成的配音视频文件夹。
  • volume=0.5 可调整原声、配音的音量比例。
  • 若原视频与配音视频长度不一致,amix 会自动截齐。

如果不会写脚本,也可以使用 Audacity 的批处理功能(Macro)或 剪映 的多轨道混音后批量导出。


3. 替代方案(不混音,仅保留原声+双语字幕)

如果你不需要双语音声,只需要原声保留、添加双语字幕,可以在 pyVideoTrans 中:

  • 配音渠道选择“不配音”
  • 字幕类型选择“嵌入硬字幕(双)”或“嵌入软字幕(双)”
    这样最终视频只保留原声,同时显示双语字幕,音轨未替换。

如果需要更具体的操作步骤(例如 ffmpeg 命令的调整或 Audacity 批处理教程),请告知你的操作系统和你希望达到的效果细节,我可以进一步提供帮助。

还有就是怎么让配音放到原来的文件夹里

在“翻译视频和音频”主界面,点击 “输出到..” 按钮,在弹出的文件夹选择对话框中,直接选择原视频所在的文件夹(例如你存放源 MP3 的目录)。之后所有生成的配音、字幕和最终视频都会保存到该文件夹下,而不会放到默认的 _video_out 子文件夹。如果已经生成过文件,需清理缓存(勾选“清理已生成”)再重新执行。

混合人声有没有简单方法

目前 pyVideoTrans 无法直接实现原始人声和配音同时保留的“双语音声”。最简单的方法是:

使用剪映(CapCut)手动混合(无需代码)

  1. 用 pyVideoTrans 正常完成翻译配音(生成替换了声音的视频)。
  2. 在剪映中导入原始视频(音轨为原声)和刚生成的配音视频(音轨为配音)。
  3. 将两个视频叠加到同一轨道上方,关闭配音视频的画面(只保留声音)。
  4. 分别调整两条音轨的音量(例如原声 30%,配音 100%),导出即可。

批量处理:剪映专业版支持将第一个混合好的视频设为“草稿”,然后批量复制并替换源文件,但稍微繁琐。如需纯批量自动化,只能使用 ffmpeg 命令(已在上次给出)。

有没有选取文件的

pyVideoTrans 没有内置的“混合人声”功能,也无法通过简单的“选取文件”来直接合成双语音声。如果你希望用图形界面操作而非命令行,推荐以下免费工具的简便方法:

方案一:剪映(CapCut)—— 最简单

  1. 将原始视频/音频和 pyVideoTrans 生成的配音视频分别导入剪映。
  2. 在时间轴将两个文件拖到不同音轨,关闭配音视频的画面。
  3. 分别调节两条音轨音量(原声调低,配音保持100%)。
  4. 导出即可。

方案二:Audacity —— 支持批量处理

  1. 安装 Audacity 免费软件。
  2. 打开原始音频和配音音频两个文件。
  3. 全选 → 菜单“效果”→“混音”→“混合并渲染到新音轨”,然后调整每条音轨音量后导出。
  4. 批量处理可通过 Audacity 的“宏(Macro)”功能录制一次操作后批量应用于多个文件。

如果需要更详细的步骤或批处理脚本,请告知你的具体环境(文件数量、是否有ffmpeg基础),我可以提供更针对性的指导。

pyvideotrans文件夹里面有ffmpeg是吧不需要重新安装是吗

是的,pyVideoTrans 的 Windows 完整打包版(约 2.6GB)自带了 ffmpeg.exe 和 ffprobe.exe,位于软件根目录下的 ffmpeg 文件夹内。软件运行时会自动调用它,无需您单独安装。如果您想直接使用这些 ffmpeg 命令进行混音,可以在命令行中切换到该 ffmpeg 目录执行,或者将该目录路径添加到系统环境变量中以便全局调用。

混音你最推荐是哪个软件

如果不想用命令行,剪映(CapCut) 是最简单的选择,完全图形化操作,无需任何代码基础。具体对比:- 剪映(免费):操作最简单,拖拽两段视频到不同音轨,调节音量后直接导出,适合单次或少量文件处理。- Audacity(免费):支持宏录制实现半自动批量处理,但对新手需要一点学习曲线。- ffmpeg 命令行:最彻底的批量方案,但你需要写命令。如果只是处理几个视频,推荐剪映;如果文件较多且愿意学习,Audacity 宏更高效。可以根据你的文件数量和对操作的熟练程度灵活选择。

剪映怎么淡化翻译后的音声不影响正常理解意思的前提下,收听asmr。翻译后音声音量建议多少

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update. Dondate: ko-fi.com/jianchang512

Related resource