#3078 用语音转录没有效果,没有转录,用的large-v3,一点都没有动,

103.172* Posted at: 13 days ago 👁53


Application started at 2026-02-04 01:10:52

[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
First searching GPU...
Found 1 GPUs, cost=3s
start workers...
NVIDIA_GPU_NUMS=1
process_max_gpu=0
multi_gpus=False
Concurrent task_nums=1
process_max=0
start 8 jobs
ended workers
[DEBUG] 最终配置信息:self.cfg=TaskCfg(cache_folder='G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/tmp/14232/a2ee20a15b', target_dir='C:/Users/lsl/Downloads/_video_out/1 กุมภาพันธ์ ค.ศ. 2026_720p-mp4', remove_noise=True, is_separate=False, detect_language='th', subtitle_language=None, source_language='泰国语', target_language='简体中文', source_language_code='th', target_language_code='zh-cn', source_sub='C:/Users/lsl/Downloads/_video_out/1 กุมภาพันธ์ ค.ศ. 2026_720p-mp4/th.srt', target_sub='C:/Users/lsl/Downloads/_video_out/1 กุมภาพันธ์ ค.ศ. 2026_720p-mp4/zh-cn.srt', source_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/tmp/14232/a2ee20a15b/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/1 กุมภาพันธ์ ค.ศ. 2026_720p-mp4/th.m4a', target_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/tmp/14232/a2ee20a15b/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/1 กุมภาพันธ์ ค.ศ. 2026_720p-mp4/zh-cn.m4a', subtitles='', novoice_mp4='G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/tmp/14232/a2ee20a15b/novoice.mp4', noextname='1 กุมภาพันธ์ ค.ศ. 2026_720p', shibie_audio=None, targetdir_mp4='C:/Users/lsl/Downloads/_video_out/1 กุมภาพันธ์ ค.ศ. 2026_720p-mp4/1 กุมภาพันธ์ ค.ศ. 2026_720p.mp4', instrument=None, vocal=None, back_audio='', background_music=None, app_mode='biaozhun', subtitle_type=1, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', copysrt_rawvideo=False, clear_cache=True, translate_type=0, tts_type=0, recogn_type=0, model_name='large-v3', voice_autorate=True, video_autorate=False, cuda=True, name='C:/Users/lsl/Downloads/1 กุมภาพันธ์ ค.ศ. 2026_720p.mp4', basename='1 กุมภาพันธ์ ค.ศ. 2026_720p.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, uuid='a2ee20a15b', remove_silent_mid=False, align_sub_audio=True, enable_diariz=False, nums_diariz=0, rephrase=0, only_out_mp4=False, fix_punc=False, recogn2pass=False)
[DEBUG] cmd=['G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/ffmpeg/ffmpeg.exe', '-hide_banner', '-ignore_unknown', '-threads', '0', '-y', '-fflags', '+genpts', '-i', 'C:/Users/lsl/Downloads/1 กุมภาพันธ์ ค.ศ. 2026_720p.mp4', '-an', '-c:v', 'copy', 'novoice.mp4']
[DEBUG] cmd=['G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/ffmpeg/ffmpeg.exe', '-hide_banner', '-ignore_unknown', '-threads', '0', '-y', '-i', 'C:/Users/lsl/Downloads/1 กุมภาพันธ์ ค.ศ. 2026_720p.mp4', '-vn', '-ac', '1', '-ar', '16000', '-c:a', 'pcm_s16le', 'G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/tmp/14232/a2ee20a15b/th.wav']
Downloading Model from https://www.modelscope.cn to directory: G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/models\models\iic\speech_frcrn_ans_cirm_16k
2026-02-04 01:11:48,781 - modelscope - INFO - Got 8 files, start to download ...

Processing 8 items: 0%| | 0.00/8.00 [00:00

15 Replies

语音转录失败是由于 faster-whisper 模型文件不完整或损坏导致的。日志显示错误信息为 Unable to open file 'model.bin'Cannot load the vocabulary from the model directory,这表明软件在 models/models--Systran--faster-whisper-large-v3 目录下找不到有效的模型文件。

解决方案:

  1. 手动下载并放置模型文件

    • 由于网络问题,自动从 HuggingFace 下载可能失败。你需要手动下载 faster-whisper-large-v3 模型。
    • 从可靠的镜像站(如 modelscope.cn)下载模型文件。你需要找到包含 model.binconfig.jsontokenizer.json 等核心文件的完整模型包。
    • 将下载的模型文件解压,并确保整个文件夹放置到正确的路径:你的软件根目录/models/models--Systran--faster-whisper-large-v3/。文件夹名称必须严格一致。
  2. 清理缓存并重试

    • 在放置好完整的模型文件后,重启 pyVideoTrans。
    • 在软件主界面,点击菜单栏的“工具” -> “清理缓存”,然后重新执行语音转录任务。
  3. (备选)更换模型或识别渠道

    • 如果问题持续,可以暂时切换到其他语音识别渠道,例如:

      • 使用在线的语音识别API(如OpenAI Whisper API、阿里百炼Qwen3-ASR)。
      • 或者尝试使用 openai-whisper 本地模式(如果已安装)。

关键检查点

  • 确认 G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/models/models--Systran--faster-whisper-large-v3/ 目录下存在 model.bin 文件且文件大小正常(通常超过1GB)。
  • 确保软件安装和模型存放路径没有中文或空格(你的当前路径符合要求)。

请查阅相关文档:

已经下载了最新的模型软件,但就是转录失败

转录失败的直接原因是模型文件下载不完整或放置位置不正确,导致 faster-whisper 无法加载 model.bin 和词汇表文件。

请按以下步骤彻底排查:

  1. 验证模型文件完整性

    • 前往你的模型目录 G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/models/models--Systran--faster-whisper-large-v3/
    • 检查是否存在以下关键文件:model.bin (通常大于 1GB)、config.jsontokenizer.jsonvocabulary.json
    • 如果 model.bin 文件大小异常小(如只有几KB),说明下载中断,文件不完整,必须删除后重新下载。
  2. 手动下载并放置模型(推荐从 ModelScope 镜像)

    • 由于 HuggingFace 访问问题,请从国内镜像站 ModelScope 下载。
    • 访问链接:https://www.modelscope.cn/models/Systran/faster-whisper-large-v3
    • 在页面中找到“模型文件”标签页,下载 全部文件(通常是一个 .tar.zip 压缩包,或逐个下载所有文件)。
    • 将下载的文件解压,确保得到完整的 models--Systran--faster-whisper-large-v3 文件夹。
    • 将这个完整的文件夹放置到 G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/models/ 目录下。
    • 关键:最终路径必须是 G:/.../models/models--Systran--faster-whisper-large-v3/,且内部包含上述完整文件。
  3. 清理缓存并重启

    • 在 pyVideoTrans 软件中,点击顶部菜单“工具” -> “清理缓存”。
    • 完全关闭软件,然后重新启动 sp.exe,再次尝试转录。
  4. (备用方案)切换语音识别渠道

    • 如果上述步骤后问题依旧,可能是模型与当前环境存在兼容性问题。
    • 在软件设置中,暂时将“语音识别渠道”从 faster-whisper 切换到其他可用渠道,例如:

      • openai-whisper (本地)
      • 或使用在线的语音识别API(如配置了API Key的OpenAI Whisper、阿里百炼Qwen3-ASR)。

请查阅相关文档:

就是要用这个faster这个,要咋个弄,才可以使用large-v3,如何弄完整的可以使用的

要使用完整的 faster-whisper large-v3 模型,核心是手动下载并放置一个绝对完整的模型文件夹。请严格按照以下步骤操作:下载完整模型包:访问 ModelScope 镜像站:https://www.modelscope.cn/models/Systran/faster-whisper-large-v3。在页面中,找到并点击“模型文件”标签。下载整个模型仓库的压缩包。通常页面会提供“下载模型”或“Repository”的链接,下载一个包含所有文件的 .tar.gz 或 .zip 文件。这是确保文件完整性的最佳方式。如果无法找到完整包,则必须逐个下载该页面列出的所有文件,至少包括:config.json、model.bin、preprocessor_config.json、tokenizer.json、vocabulary.json。其中 model.bin 是核心权重文件,大小约为 3.1 GB。放置模型到正确路径:将下载的完整压缩包解压,你会得到一个名为 models--Systran--faster-whisper-large-v3 的文件夹。将此整个文件夹移动到你的软件模型目录:G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/models/。最终路径必须是:G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/models/models--Systran--faster-whisper-large-v3/。验证文件完整性:打开上述最终路径,确认里面直接包含 model.bin、config.json 等文件,而不是嵌套了另一层 models--Systran--faster-whisper-large-v3 文件夹。检查 model.bin 的文件属性,大小应在 3.1 GB 左右。如果大小只有几KB或几十MB,说明下载不完整,必须删除并重新下载。清理缓存与重启:在 pyVideoTrans 软件中,点击顶部菜单“工具” -> “清理缓存”。完全关闭软件,然后重新启动 sp.exe。在“语音识别渠道”中选择“faster-whisper”,模型选择“large-v3”,再次尝试。关键点总结:必须从 ModelScope 下载完整包,避免从 HuggingFace 下载因网络导致的文件残缺。文件夹名称和路径必须完全一致,不能有任何更改。请查阅相关文档:在线下载AI模型失败的解决办法Cannot find an appropriate cached snapshot folder错误?一篇文章彻底搞定huggingface下载难题

没有下载压缩包的指令啊

在 ModelScope 页面没有直接提供“下载压缩包”按钮,需要手动操作。以下是获取完整模型文件夹的详细步骤:使用 Git 命令克隆(推荐,可确保完整性):打开命令提示符 (CMD) 或 PowerShell。执行以下命令(这会将整个模型仓库克隆到当前目录的一个文件夹中):git clone https://www.modelscope.cn/Systran/faster-whisper-large-v3.git。克隆完成后,你会得到一个名为 faster-whisper-large-v3 的文件夹。将此文件夹重命名为 models--Systran--faster-whisper-large-v3。将这个重命名后的文件夹移动到你的软件模型目录:G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/models/。手动逐个下载所有文件(如果无法使用 Git):在 ModelScope 的“模型文件”标签页 (https://www.modelscope.cn/models/Systran/faster-whisper-large-v3/files)。页面会列出所有文件。你需要逐个点击下载以下必需文件:config.json、model.bin、preprocessor_config.json、tokenizer.json、vocabulary.json、generation_config.json(如果有)。在 G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/models/ 目录下,新建一个名为 models--Systran--faster-whisper-large-v3 的文件夹。将所有下载的文件放入这个新建的文件夹内。关键验证:无论用哪种方法,最终都必须确保路径 G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/models/models--Systran--faster-whisper-large-v3/ 下直接包含 model.bin(大小约3.1GB)和其他配置文件。完成放置后,在 pyVideoTrans 中执行“工具” -> “清理缓存”,然后重启软件再试。请查阅相关文档:Cannot find an appropriate cached snapshot folder错误?一篇文章彻底搞定huggingface下载难题

下载太慢了

下载慢是网络问题,特别是 model.bin 文件较大(约3.1GB)。以下是加速下载和替代方案:使用国内下载工具或镜像加速:使用 Git 克隆并配置代理(如果可用):在命令提示符中,先设置代理(如果你有可用的HTTP代理),例如:set HTTP_PROXY=http://127.0.0.1:10809 和 set HTTPS_PROXY=http://127.0.0.1:10809。然后执行克隆命令:git clone https://www.modelscope.cn/Systran/faster-whisper-large-v3.git。使用 下载管理器(如 IDM、迅雷)直接下载 model.bin 文件:在 ModelScope 文件页面,右键点击 model.bin 文件的下载链接,选择“复制链接地址”。将链接粘贴到下载管理器(如IDM)中新建任务,通常下载管理器能提供加速和断点续传。从其他国内镜像源寻找预下载的模型包:在百度网盘、阿里云盘等平台搜索“faster-whisper-large-v3 模型”或“Systran faster-whisper-large-v3”,有时会有用户分享的完整压缩包。下载后,同样需要将解压出的文件夹重命名为 models--Systran--faster-whisper-large-v3 并放入指定目录。临时解决方案:使用 smaller 模型或在线识别:如果急需使用,可在软件中暂时选择 faster-whisper 的 smaller 模型(如 large-v2、medium),这些模型文件较小,下载可能更快。或者,切换到完全在线的语音识别渠道(如 OpenAI Whisper API、阿里百炼 Qwen3-ASR),无需下载本地大模型。关键步骤:无论从何处下载,最终必须将完整的 models--Systran--faster-whisper-large-v3 文件夹(内含完整的 model.bin 等文件)放置到 G:/VideoTrans/Trans/win-pyvideotrans-v3.96-22/models/ 目录下。放置后,务必在软件中执行“工具” -> “清理缓存”并重启。请查阅相关文档:在线下载AI模型失败的解决办法

如何停止下载这个命令

要停止正在进行的 git clone 或下载命令,请直接在命令提示符(CMD)或 PowerShell 窗口中按下 Ctrl + C 组合键。这会立即终止当前正在运行的命令。如果按一次没有反应,可以连续按几次 Ctrl + C。命令停止后,你可以删除已下载的不完整文件夹(例如 faster-whisper-large-v3),然后尝试其他下载方法。

就是下载最新版本的pyvideotrans,要下载补丁包吗?下载补丁包,要和最新版本的这个软件复制吗

是否需要下载补丁包取决于你当前已有的软件版本。如果你已经有一个完整版本的 pyVideoTrans(例如 v3.96),并且官方发布了针对此版本的补丁包(通常用于修复bug或小更新),那么你需要下载补丁包。补丁包通常只包含更新过的文件(如 sp.exe、部分库文件),体积较小。操作步骤:确认你现有的软件版本(例如查看软件界面标题或根目录下的版本说明)。从官方发布页面下载对应版本的补丁包(通常是 .7z 压缩文件)。将补丁包中的所有文件解压,并覆盖到现有软件根目录(即与 sp.exe 同一目录)。覆盖时选择“替换目标中的文件”。切勿将补丁包解压到一个新文件夹然后整体复制,必须是将补丁包内的文件与现有文件合并覆盖。如果你还没有任何版本的 pyVideoTrans,或者你的版本很旧,那么你应该直接下载完整包,而不是补丁包。补丁包不能独立运行。总结:已有完整版软件 -> 下载对应版本补丁包 -> 解压并覆盖到原目录。没有软件或版本过旧 -> 下载最新完整包 -> 解压到新目录使用。请查阅相关文档:免费下载pyVideoTrans视频翻译软件

补丁包这个用,是把软件包解压好了,把补丁包压缩的放在里面解压码?

不是。正确的操作是:将补丁包解压,然后把解压出来的所有文件和文件夹,复制并粘贴到你已经解压好的完整版软件根目录中,当系统提示“是否替换目标中的文件”时,选择“替换”。关键步骤:确保你已经将完整版软件包(例如 win-pyvideotrans-v3.96-22.7z)解压到一个目录(如 D:\pyVideoTrans)。下载对应版本的补丁包(例如 win-pyvideotrans-v3.96-22-patch.7z)。将补丁包解压,你会得到一些文件和文件夹(通常包含 sp.exe、videotrans 文件夹等)。选中补丁包解压出来的所有内容,复制。打开你的完整版软件根目录(D:\pyVideoTrans)。在此目录中粘贴,并确认全部替换。切勿将补丁包的压缩文件直接放在软件目录里,必须解压后覆盖。切勿将补丁包解压到一个新的子文件夹内。请查阅相关文档:免费下载pyVideoTrans视频翻译软件

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource