#3078 用语音转录没有效果，没有转录，用的large-v3,一点都没有动，

103.172* Posted at: 5 months ago

Application started at 2026-02-04 01:10:52

[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
First searching GPU...
Found 1 GPUs, cost=3s
start workers...
NVIDIA_GPU_NUMS=1
process_max_gpu=0
multi_gpus=False
Concurrent task_nums=1
process_max=0
start 8 jobs
ended workers
[DEBUG] 最终配置信息：self.cfg=TaskCfg(cache_folder='G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/tmp/14232/a2ee20a15b', target_dir='C:/Users/lsl/Downloads/_video_out/1 กุมภาพันธ์ ค.ศ. 2026_720p-mp4', remove_noise=True, is_separate=False, detect_language='th', subtitle_language=None, source_language='泰国语', target_language='简体中文', source_language_code='th', target_language_code='zh-cn', source_sub='C:/Users/lsl/Downloads/_video_out/1 กุมภาพันธ์ ค.ศ. 2026_720p-mp4/th.srt', target_sub='C:/Users/lsl/Downloads/_video_out/1 กุมภาพันธ์ ค.ศ. 2026_720p-mp4/zh-cn.srt', source_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/tmp/14232/a2ee20a15b/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/1 กุมภาพันธ์ ค.ศ. 2026_720p-mp4/th.m4a', target_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/tmp/14232/a2ee20a15b/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/1 กุมภาพันธ์ ค.ศ. 2026_720p-mp4/zh-cn.m4a', subtitles='', novoice_mp4='G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/tmp/14232/a2ee20a15b/novoice.mp4', noextname='1 กุมภาพันธ์ ค.ศ. 2026_720p', shibie_audio=None, targetdir_mp4='C:/Users/lsl/Downloads/_video_out/1 กุมภาพันธ์ ค.ศ. 2026_720p-mp4/1 กุมภาพันธ์ ค.ศ. 2026_720p.mp4', instrument=None, vocal=None, back_audio='', background_music=None, app_mode='biaozhun', subtitle_type=1, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', copysrt_rawvideo=False, clear_cache=True, translate_type=0, tts_type=0, recogn_type=0, model_name='large-v3', voice_autorate=True, video_autorate=False, cuda=True, name='C:/Users/lsl/Downloads/1 กุมภาพันธ์ ค.ศ. 2026_720p.mp4', basename='1 กุมภาพันธ์ ค.ศ. 2026_720p.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, uuid='a2ee20a15b', remove_silent_mid=False, align_sub_audio=True, enable_diariz=False, nums_diariz=0, rephrase=0, only_out_mp4=False, fix_punc=False, recogn2pass=False)
[DEBUG] cmd=['G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/ffmpeg/ffmpeg.exe', '-hide_banner', '-ignore_unknown', '-threads', '0', '-y', '-fflags', '+genpts', '-i', 'C:/Users/lsl/Downloads/1 กุมภาพันธ์ ค.ศ. 2026_720p.mp4', '-an', '-c:v', 'copy', 'novoice.mp4']
[DEBUG] cmd=['G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/ffmpeg/ffmpeg.exe', '-hide_banner', '-ignore_unknown', '-threads', '0', '-y', '-i', 'C:/Users/lsl/Downloads/1 กุมภาพันธ์ ค.ศ. 2026_720p.mp4', '-vn', '-ac', '1', '-ar', '16000', '-c:a', 'pcm_s16le', 'G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/tmp/14232/a2ee20a15b/th.wav']
Downloading Model from https://www.modelscope.cn to directory: G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/models\models\iic\speech_frcrn_ans_cirm_16k
2026-02-04 01:11:48,781 - modelscope - INFO - Got 8 files, start to download ...

Processing 8 items: 0%| | 0.00/8.00 [00:00

Floor #1 DeepSeek reply at 5 months ago

语音转录失败是由于 faster-whisper 模型文件不完整或损坏导致的。日志显示错误信息为 Unable to open file 'model.bin' 和 Cannot load the vocabulary from the model directory，这表明软件在 models/models--Systran--faster-whisper-large-v3 目录下找不到有效的模型文件。

解决方案：

手动下载并放置模型文件：
- 由于网络问题，自动从 HuggingFace 下载可能失败。你需要手动下载 faster-whisper-large-v3 模型。
- 从可靠的镜像站（如 modelscope.cn）下载模型文件。你需要找到包含 model.bin、config.json、tokenizer.json 等核心文件的完整模型包。
- 将下载的模型文件解压，并确保整个文件夹放置到正确的路径：你的软件根目录/models/models--Systran--faster-whisper-large-v3/。文件夹名称必须严格一致。
清理缓存并重试：
- 在放置好完整的模型文件后，重启 pyVideoTrans。
- 在软件主界面，点击菜单栏的“工具” -> “清理缓存”，然后重新执行语音转录任务。
（备选）更换模型或识别渠道：
- 如果问题持续，可以暂时切换到其他语音识别渠道，例如：
  - 使用在线的语音识别API（如OpenAI Whisper API、阿里百炼Qwen3-ASR）。
  - 或者尝试使用 openai-whisper 本地模式（如果已安装）。

关键检查点：

确认 G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/models/models--Systran--faster-whisper-large-v3/ 目录下存在 model.bin 文件且文件大小正常（通常超过1GB）。
确保软件安装和模型存放路径没有中文或空格（你的当前路径符合要求）。

请查阅相关文档：

Floor #2 103.172* reply at 5 months ago

已经下载了最新的模型软件，但就是转录失败

Floor #3 DeepSeek reply at 5 months ago

转录失败的直接原因是模型文件下载不完整或放置位置不正确，导致 faster-whisper 无法加载 model.bin 和词汇表文件。

请按以下步骤彻底排查：

验证模型文件完整性：
- 前往你的模型目录 G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/models/models--Systran--faster-whisper-large-v3/。
- 检查是否存在以下关键文件：model.bin (通常大于 1GB)、config.json、tokenizer.json、vocabulary.json。
- 如果 model.bin 文件大小异常小（如只有几KB），说明下载中断，文件不完整，必须删除后重新下载。
手动下载并放置模型（推荐从 ModelScope 镜像）：
- 由于 HuggingFace 访问问题，请从国内镜像站 ModelScope 下载。
- 访问链接：https://www.modelscope.cn/models/Systran/faster-whisper-large-v3。
- 在页面中找到“模型文件”标签页，下载 全部文件（通常是一个 .tar 或 .zip 压缩包，或逐个下载所有文件）。
- 将下载的文件解压，确保得到完整的 models--Systran--faster-whisper-large-v3 文件夹。
- 将这个完整的文件夹放置到 G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/models/ 目录下。
- 关键：最终路径必须是 G:/.../models/models--Systran--faster-whisper-large-v3/，且内部包含上述完整文件。
清理缓存并重启：
- 在 pyVideoTrans 软件中，点击顶部菜单“工具” -> “清理缓存”。
- 完全关闭软件，然后重新启动 sp.exe，再次尝试转录。
（备用方案）切换语音识别渠道：
- 如果上述步骤后问题依旧，可能是模型与当前环境存在兼容性问题。
- 在软件设置中，暂时将“语音识别渠道”从 faster-whisper 切换到其他可用渠道，例如：
  - openai-whisper (本地)
  - 或使用在线的语音识别API（如配置了API Key的OpenAI Whisper、阿里百炼Qwen3-ASR）。

请查阅相关文档：

Floor #4 103.172* reply at 5 months ago

就是要用这个faster这个，要咋个弄，才可以使用large-v3,如何弄完整的可以使用的

Floor #5 DeepSeek reply at 5 months ago

要使用完整的 faster-whisper large-v3 模型，核心是手动下载并放置一个绝对完整的模型文件夹。请严格按照以下步骤操作：下载完整模型包：访问 ModelScope 镜像站：https://www.modelscope.cn/models/Systran/faster-whisper-large-v3。在页面中，找到并点击“模型文件”标签。下载整个模型仓库的压缩包。通常页面会提供“下载模型”或“Repository”的链接，下载一个包含所有文件的 .tar.gz 或 .zip 文件。这是确保文件完整性的最佳方式。如果无法找到完整包，则必须逐个下载该页面列出的所有文件，至少包括：config.json、model.bin、preprocessor_config.json、tokenizer.json、vocabulary.json。其中 model.bin 是核心权重文件，大小约为 3.1 GB。放置模型到正确路径：将下载的完整压缩包解压，你会得到一个名为 models--Systran--faster-whisper-large-v3 的文件夹。将此整个文件夹移动到你的软件模型目录：G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/models/。最终路径必须是：G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/models/models--Systran--faster-whisper-large-v3/。验证文件完整性：打开上述最终路径，确认里面直接包含 model.bin、config.json 等文件，而不是嵌套了另一层 models--Systran--faster-whisper-large-v3 文件夹。检查 model.bin 的文件属性，大小应在 3.1 GB 左右。如果大小只有几KB或几十MB，说明下载不完整，必须删除并重新下载。清理缓存与重启：在 pyVideoTrans 软件中，点击顶部菜单“工具” -> “清理缓存”。完全关闭软件，然后重新启动 sp.exe。在“语音识别渠道”中选择“faster-whisper”，模型选择“large-v3”，再次尝试。关键点总结：必须从 ModelScope 下载完整包，避免从 HuggingFace 下载因网络导致的文件残缺。文件夹名称和路径必须完全一致，不能有任何更改。请查阅相关文档：在线下载AI模型失败的解决办法 Cannot find an appropriate cached snapshot folder错误？一篇文章彻底搞定huggingface下载难题

Floor #6 103.172* reply at 5 months ago

没有下载压缩包的指令啊

Floor #7 DeepSeek reply at 5 months ago

在 ModelScope 页面没有直接提供“下载压缩包”按钮，需要手动操作。以下是获取完整模型文件夹的详细步骤：使用 Git 命令克隆（推荐，可确保完整性）：打开命令提示符 (CMD) 或 PowerShell。执行以下命令（这会将整个模型仓库克隆到当前目录的一个文件夹中）：git clone https://www.modelscope.cn/Systran/faster-whisper-large-v3.git。克隆完成后，你会得到一个名为 faster-whisper-large-v3 的文件夹。将此文件夹重命名为 models--Systran--faster-whisper-large-v3。将这个重命名后的文件夹移动到你的软件模型目录：G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/models/。手动逐个下载所有文件（如果无法使用 Git）：在 ModelScope 的“模型文件”标签页 (https://www.modelscope.cn/models/Systran/faster-whisper-large-v3/files)。页面会列出所有文件。你需要逐个点击下载以下必需文件：config.json、model.bin、preprocessor_config.json、tokenizer.json、vocabulary.json、generation_config.json（如果有）。在 G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/models/ 目录下，新建一个名为 models--Systran--faster-whisper-large-v3 的文件夹。将所有下载的文件放入这个新建的文件夹内。关键验证：无论用哪种方法，最终都必须确保路径 G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/models/models--Systran--faster-whisper-large-v3/ 下直接包含 model.bin（大小约3.1GB）和其他配置文件。完成放置后，在 pyVideoTrans 中执行“工具” -> “清理缓存”，然后重启软件再试。请查阅相关文档：Cannot find an appropriate cached snapshot folder错误？一篇文章彻底搞定huggingface下载难题

Floor #8 2409:8a6a* reply at 5 months ago

下载太慢了

Floor #9 DeepSeek reply at 5 months ago

下载慢是网络问题，特别是 model.bin 文件较大（约3.1GB）。以下是加速下载和替代方案：使用国内下载工具或镜像加速：使用 Git 克隆并配置代理（如果可用）：在命令提示符中，先设置代理（如果你有可用的HTTP代理），例如：set HTTP_PROXY=http://127.0.0.1:10809 和 set HTTPS_PROXY=http://127.0.0.1:10809。然后执行克隆命令：git clone https://www.modelscope.cn/Systran/faster-whisper-large-v3.git。使用 下载管理器（如 IDM、迅雷）直接下载 model.bin 文件：在 ModelScope 文件页面，右键点击 model.bin 文件的下载链接，选择“复制链接地址”。将链接粘贴到下载管理器（如IDM）中新建任务，通常下载管理器能提供加速和断点续传。从其他国内镜像源寻找预下载的模型包：在百度网盘、阿里云盘等平台搜索“faster-whisper-large-v3 模型”或“Systran faster-whisper-large-v3”，有时会有用户分享的完整压缩包。下载后，同样需要将解压出的文件夹重命名为 models--Systran--faster-whisper-large-v3 并放入指定目录。临时解决方案：使用 smaller 模型或在线识别：如果急需使用，可在软件中暂时选择 faster-whisper 的 smaller 模型（如 large-v2、medium），这些模型文件较小，下载可能更快。或者，切换到完全在线的语音识别渠道（如 OpenAI Whisper API、阿里百炼 Qwen3-ASR），无需下载本地大模型。关键步骤：无论从何处下载，最终必须将完整的 models--Systran--faster-whisper-large-v3 文件夹（内含完整的 model.bin 等文件）放置到 G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/models/ 目录下。放置后，务必在软件中执行“工具” -> “清理缓存”并重启。请查阅相关文档：在线下载AI模型失败的解决办法

Floor #10 103.172* reply at 5 months ago

如何停止下载这个命令

Floor #11 DeepSeek reply at 5 months ago

要停止正在进行的 git clone 或下载命令，请直接在命令提示符（CMD）或 PowerShell 窗口中按下 Ctrl + C 组合键。这会立即终止当前正在运行的命令。如果按一次没有反应，可以连续按几次 Ctrl + C。命令停止后，你可以删除已下载的不完整文件夹（例如 faster-whisper-large-v3），然后尝试其他下载方法。

Floor #12 103.172* reply at 5 months ago

就是下载最新版本的pyvideotrans,要下载补丁包吗？下载补丁包，要和最新版本的这个软件复制吗

Floor #13 DeepSeek reply at 5 months ago

是否需要下载补丁包取决于你当前已有的软件版本。如果你已经有一个完整版本的 pyVideoTrans（例如 v3.96），并且官方发布了针对此版本的补丁包（通常用于修复bug或小更新），那么你需要下载补丁包。补丁包通常只包含更新过的文件（如 sp.exe、部分库文件），体积较小。操作步骤：确认你现有的软件版本（例如查看软件界面标题或根目录下的版本说明）。从官方发布页面下载对应版本的补丁包（通常是 .7z 压缩文件）。将补丁包中的所有文件解压，并覆盖到现有软件根目录（即与 sp.exe 同一目录）。覆盖时选择“替换目标中的文件”。切勿将补丁包解压到一个新文件夹然后整体复制，必须是将补丁包内的文件与现有文件合并覆盖。如果你还没有任何版本的 pyVideoTrans，或者你的版本很旧，那么你应该直接下载完整包，而不是补丁包。补丁包不能独立运行。总结：已有完整版软件 -> 下载对应版本补丁包 -> 解压并覆盖到原目录。没有软件或版本过旧 -> 下载最新完整包 -> 解压到新目录使用。请查阅相关文档：免费下载pyVideoTrans视频翻译软件

Floor #14 103.172* reply at 5 months ago

补丁包这个用，是把软件包解压好了，把补丁包压缩的放在里面解压码？

Floor #15 DeepSeek reply at 5 months ago

不是。正确的操作是：将补丁包解压，然后把解压出来的所有文件和文件夹，复制并粘贴到你已经解压好的完整版软件根目录中，当系统提示“是否替换目标中的文件”时，选择“替换”。关键步骤：确保你已经将完整版软件包（例如 win-pyvideotrans-v3.96-22.7z）解压到一个目录（如 D:\pyVideoTrans）。下载对应版本的补丁包（例如 win-pyvideotrans-v3.96-22-patch.7z）。将补丁包解压，你会得到一些文件和文件夹（通常包含 sp.exe、videotrans 文件夹等）。选中补丁包解压出来的所有内容，复制。打开你的完整版软件根目录（D:\pyVideoTrans）。在此目录中粘贴，并确认全部替换。切勿将补丁包的压缩文件直接放在软件目录里，必须解压后覆盖。切勿将补丁包解压到一个新的子文件夹内。请查阅相关文档：免费下载pyVideoTrans视频翻译软件

#3078 用语音转录没有效果，没有转录，用的large-v3,一点都没有动，

15 Replies

请查阅相关文档：

请查阅相关文档：

Post Your Reply

Related resource