#3500 OSError: Error no file named pytorch_model.bin, model.safetensors, tf_model.h5, model.ckpt.index or flax_model.msgpack f

183.87* Posted at: 8 hours ago 👁34

系统错误 (None):None:
concurrent.futures.process._RemoteTraceback:
"""
Traceback (most recent call last):
File "concurrent\futures\process.py", line 246, in _process_worker
File "videotrans\process\tts_fun.py", line 63, in qwen3tts_fun
File "D:\pyVideoTrans\_internal\qwen_tts\inference\qwen3_tts_model.py", line 112, in from_pretrained

model = AutoModel.from_pretrained(pretrained_model_name_or_path, **kwargs)

File "transformers\models\auto\auto_factory.py", line 604, in from_pretrained

return model_class.from_pretrained(

File "D:\pyVideoTrans\_internal\qwen_tts\core\models\modeling_qwen3_tts.py", line 1876, in from_pretrained

model = super().from_pretrained(

File "transformers\modeling_utils.py", line 277, in _wrapper

return func(*args, **kwargs)

File "transformers\modeling_utils.py", line 4900, in from_pretrained

checkpoint_files, sharded_metadata = _get_resolved_checkpoint_files(

File "transformers\modeling_utils.py", line 989, in _get_resolved_checkpoint_files

raise OSError(

OSError: Error no file named pytorch_model.bin, model.safetensors, tf_model.h5, model.ckpt.index or flax_model.msgpack found in directory D:/pyVideoTrans/models/models--Qwen--Qwen3-TTS-12Hz-1.7B-CustomVoice.
"""

The above exception was the direct cause of the following exception:

Traceback (most recent call last):
File "videotrans\util\ListenVoice.py", line 16, in run
File "videotrans\tts\__init__.py", line 346, in run
File "videotrans\tts\_base.py", line 136, in run
File "videotrans\tts\_qwenttslocal.py", line 53, in _exec
File "videotrans\configure\_base.py", line 284, in _new_process
File "concurrent\futures\_base.py", line 458, in result
File "concurrent\futures\_base.py", line 403, in __get_result
OSError: Error no file named pytorch_model.bin, model.safetensors, tf_model.h5, model.ckpt.index or flax_model.msgpack found in directory D:/pyVideoTrans/models/models--Qwen--Qwen3-TTS-12Hz-1.7B-CustomVoice.


=
system:Windows-10-10.0.26200-SP0
version:v3.97
frozen:True
language:zh
root_dir:D:/pyVideoTrans

21 Replies

这是由于 Qwen-TTS(本地) 配音渠道所需的模型文件缺失或未正确下载导致的。

解决方案:

  1. 检查模型目录:前往 D:/pyVideoTrans/models/ 目录,确认是否存在名为 models--Qwen--Qwen3-TTS-12Hz-1.7B-CustomVoice 的文件夹。
  2. 手动下载模型:如果该文件夹不存在或为空,你需要手动下载 Qwen3-TTS 模型文件。

    • 模型下载地址:https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice/tree/main
    • 将该页面上的所有 .json.bin.safetensors.txt 等文件下载到本地。
  3. 放置模型文件:在 D:/pyVideoTrans/models/ 目录下,创建名为 models--Qwen--Qwen3-TTS-12Hz-1.7B-CustomVoice 的文件夹,并将下载的所有模型文件复制进去。
  4. 重启软件:完成文件复制后,重启 pyVideoTrans 软件,再次尝试使用 Qwen-TTS(本地) 进行配音。

注意:如果无法访问 HuggingFace 官网,需要配置网络代理或使用镜像站下载。

请查阅相关文档:

所需文件都有

这是由于 Qwen-TTS 模型文件虽然存在,但可能因网络问题、文件损坏或软件版本问题导致加载失败。

解决方案:

  1. 检查软件版本:确认你使用的是 v3.97 或更高版本。根据知识库,低于 v3.97 版本使用 qwen-tts 遇到的问题,升级 v3.97 可能已解决。
  2. 验证模型文件完整性:检查 D:/pyVideoTrans/models/models--Qwen--Qwen3-TTS-12Hz-1.7B-CustomVoice/ 文件夹内的文件是否完整,特别是 pytorch_model.binmodel.safetensors 等核心权重文件。如果文件大小异常小,可能是下载不完整,需要重新下载。
  3. 配置网络代理:如果模型文件完整,加载失败可能与访问 HuggingFace 获取配置文件或分词器有关。在软件“菜单-工具-设置”中配置网络代理,然后重启软件再试。
  4. 尝试其他配音渠道:作为临时替代,可以使用 Edge-TTS(免费)或其他已配置成功的 TTS 渠道完成当前任务。
  5. 提供日志:如果以上步骤均无效,请提供 logs 文件夹中最新日志文件的底部更多行(约50行)错误信息,以便进一步分析。

请查阅相关文档:

Qwen-TTS克隆音色,测试和合成的音频开头很急促,缺了不到1秒的样子,结尾会缺几个字

这是由于 Qwen-TTS 在克隆音色时,生成的音频与参考音频的静音处理或时间轴对齐存在问题,导致音频开头和结尾被不当裁剪。解决方案:调整高级选项中的语音识别参数:在“菜单-工具-高级选项-语音识别参数”区域,将“最短语音持续毫秒”设为 3000,“最长语音持续秒数”设为 10。确保同时选中“Whisper预分割音频”以及“合并过短字幕到相邻”。此设置旨在确保用于克隆的参考音频片段时长落在 3-10 秒的理想范围内,提高克隆可靠性。检查并调整配音对齐设置:在“菜单-工具-高级选项-字幕配音调整”区域,确认“移除配音前后静音缓冲”选项是否被选中。如果选中,请尝试取消勾选,以避免软件自动移除静音部分导致音频开头/结尾缺失。在配音校对环节手动调整:在视频翻译过程中,如果启用了“单视频交互模式”,或在最终合成前,使用“配音校对”功能。你可以试听每一句配音,并手动微调该句的开始和结束时间,或点击“重试”重新生成该句配音。尝试其他克隆渠道:如果问题持续存在,可以尝试使用其他本地声音克隆渠道,如 F5-TTS、GPT-SoVITS 或 CosyVoice,看是否有所改善。请查阅相关文档:如何使用原视频中音色配音高级设置各个选项说明视频翻译最佳效果推荐

设置完软件是否需要重启才有用?因为设置完试了没效果,克隆的音色开头和结尾都缺失,自带的音色结尾缺失

是的,部分高级选项的修改需要重启软件才能生效。根据知识库,在“菜单-工具-高级选项”中,明确标注了“最大进程数[重启生效]”、“GPU同时任务数[重启生效]”、“多显卡模式[重启生效]”。虽然你调整的语音识别参数可能不需要重启,但为了确保所有配置完全加载,建议在修改后重启软件。针对克隆音色和自带音色结尾缺失问题,核心原因可能是“移除配音前后静音缓冲”功能过于激进,或TTS渠道本身生成不完整。解决方案:重启软件:关闭 pyVideoTrans,然后重新启动。检查并调整“移除配音前后静音缓冲”:在“菜单-工具-高级选项-字幕配音调整”区域,确认“移除配音前后静音缓冲”选项。如果它被选中,请取消勾选,然后重新测试。此功能旨在移除静音以利于同步,但可能错误裁剪了有效音频。调整配音语速:如果问题仅出现在翻译成某些语言(如中文译英文)时,可能是因为目标语言句子较长。尝试在配音设置中适当增加“配音语速”值(例如10或15),以加快配音,使其更匹配原时长。使用配音校对功能:在最终合成前,务必使用“配音校对”功能。你可以逐句试听,手动调整有问题的句子的开始/结束时间,或点击“重试”重新生成该句配音。这是解决音画不同步和音频缺失的最直接方法。请查阅相关文档:高级设置各个选项说明为何会出现声音、字幕、画面不同步

image
依然还是克隆的音色开头缺失“你”,结尾缺失“你两眼空空”,自带的音色结尾缺失“你两眼空空”

根据你提供的截图和描述,问题核心在于 Qwen-TTS 生成的音频时长短于字幕文本的理论时长,导致在强制对齐时(你已选中“配音加速”和“视频慢速”),音频开头和结尾被裁剪以匹配时间轴。解决方案:优先调整对齐策略:取消选中“视频慢速”,仅保留“配音加速”。这会让软件通过加速音频来匹配原视频时长,避免因拉伸视频而暴露音频时长不足的问题。检查并调整“移除配音前后静音缓冲”:在“菜单-工具-高级选项-字幕配音调整”区域,确保“移除配音前后静音缓冲”选项未被选中。如果选中,它会主动裁剪音频首尾的静音,可能误删了有效语音。调整 Qwen-TTS 生成参数(如支持):目前知识库未提供 Qwen-TTS 本地渠道的细粒度参数调整方法。如果该渠道有独立的配置界面或 API 参数(如语速、停顿),尝试适当降低语速或增加句间停顿,使生成的音频更饱满。使用“配音校对”进行手动修正:这是最有效的解决方案。在配音完成后、最终合成前,使用“配音校对”功能。找到有问题的句子(开头缺“你”,结尾缺“你两眼空空”),点击该句的“重试”按钮重新生成配音。你可以多次重试,直到生成完整的句子。考虑更换 TTS 渠道:如果问题持续存在,可以尝试其他本地克隆渠道,如 F5-TTSCosyVoice,看其生成音频的完整性是否更好。请查阅相关文档:为何会出现声音、字幕、画面不同步视频翻译最佳效果推荐

image
这是怎么回事

这是由于你选择的“配音角色”是 clone,但软件在原始视频中找不到足够时长的、与当前字幕时间对应的参考音频片段用于声音克隆。根据知识库,多数配音渠道要求参考音频时长在 3-10 秒之间。解决方案:调整语音识别参数以确保参考音频时长合适:在“菜单-工具-高级选项-语音识别参数”区域,进行如下设置:将“最短语音持续毫秒”设为 3000。将“最长语音持续秒数”设为 10。确保同时选中“Whisper预分割音频”以及“合并过短字幕到相邻”。这些设置旨在让语音识别生成的字幕片段时长落在 3-10 秒的理想范围内,从而为克隆提供合格的参考音频。开启人声分离:在“设置更多参数”中,选中“分离人声背景声”。这能提供更纯净的人声作为克隆参考,提高成功率。重启软件并重新处理:完成以上设置后,重启 pyVideoTrans,然后重新对该视频进行翻译和配音流程。使用非克隆角色测试:如果上述调整后问题依旧,可以暂时先使用一个非克隆的固定音色(如 Edge-TTS 中的某个角色)进行测试,以确认是否是克隆功能本身的问题。请查阅相关文档:如何使用原视频中音色配音视频翻译最佳效果推荐

image
是在音视频格式转换出现的错误

这是由于在音视频格式转换过程中,FFmpeg 处理失败导致的。具体错误信息 Invalid data found when processing input 表明输入文件可能已损坏、格式不被支持,或文件路径包含特殊字符。解决方案:检查输入文件:确认你尝试转换的源文件(如 1.mp4)是否完好,可以尝试用其他播放器打开。检查文件路径:确保源文件的完整路径(包括所在文件夹名称)不包含中文、空格或特殊符号。建议将文件移动到纯英文路径下再试。检查输出目录:确认输出目录(D:\pyVideoTrans\_video_out)存在且有写入权限。尝试重新启动软件:关闭 pyVideoTrans 并重新启动,有时可以解决临时性的进程冲突。检查 FFmpeg:如果你使用的是 Windows 预打包版,其内置的 ffmpeg 应该正常。如果问题持续,可以尝试在命令行手动使用 FFmpeg 转换该文件,以进一步诊断。命令示例:ffmpeg -i "D:\你的文件路径\1.mp4" "D:\output.mp4"。提供更多信息:如果以上步骤无效,请提供 logs 文件夹中最新日志文件的更多内容,特别是包含此错误前后操作的日志行。请查阅相关文档:报错信息一堆,含有ffmpeg字样

支持克隆的音频片段有哪些格式

根据核心知识库,pyVideoTrans 支持克隆的音频片段格式取决于其底层使用的 TTS 渠道(如 Qwen-TTS、F5-TTS、GPT-SoVITS、CosyVoice)。这些渠道通常接受常见的音频格式作为参考音频输入。通用支持格式:软件在处理克隆时,会自动从原始视频中提取与字幕时间对应的音频片段。这个内部处理过程基于 FFmpeg,因此理论上支持 FFmpeg 能解码的所有音频格式(如 .wav, .mp3, .m4a, .aac, .flac 等)。关键限制:时长要求:无论格式如何,用于克隆的参考音频片段时长必须在 3-10 秒之间。这是多数配音渠道的硬性要求。音频质量:参考音频应尽可能清晰,为人声,背景噪音小。最佳实践:为确保克隆成功,请按以下步骤设置:在“菜单-工具-高级选项-语音识别参数”中,将“最短语音持续毫秒”设为 3000,“最长语音持续秒数”设为 10。同时选中“Whisper预分割音频”和“合并过短字幕到相邻”。在“设置更多参数”中,选中“分离人声背景声”,以提供纯净人声。这样,软件会自动生成符合时长和格式要求的参考音频片段供克隆使用。请查阅相关文档:如何使用原视频中音色配音视频翻译最佳效果推荐

image
有这样时间标注的就能合成整段,就是结束“空”的发音结束的比较快,没有时间标注就合成7秒的音频结尾缺失“你两眼空空”,怎么回事

根据你的描述和截图,问题核心在于:当字幕行有明确的时间轴(如 00:00:01,000 --> 00:00:08,000)时,Qwen-TTS 能合成整段音频,但结尾发音仓促;当字幕行没有时间轴(即纯文本)时,合成的音频被固定为7秒,导致结尾内容被截断。

原因分析:

  1. 有时间轴:软件会将时间轴信息(此处为7秒时长)传递给 TTS 引擎。Qwen-TTS 会尝试在7秒内说完所有文本,可能导致语速过快、结尾仓促。
  2. 无时间轴:软件可能使用了一个默认的或固定的音频时长(如7秒)来生成音频。如果文本内容所需时长超过7秒,超出的部分(“你两眼空空”)就会被截断。

解决方案:

  1. 确保字幕文件包含正确的时间轴:始终使用带有准确时间轴的 SRT 或类似格式的字幕文件进行配音。不要使用纯文本文件。
  2. 调整“配音语速”:针对有时间轴但结尾仓促的问题,在配音设置中适当降低“配音语速”值(例如设为 -5%-10%),让 TTS 用更慢的语速朗读,以填满整个时间段,使结尾发音更完整。
  3. 使用“配音校对”功能:无论有无时间轴,在最终合成前,务必使用“配音校对”功能。找到有问题的句子,如果结尾缺失,点击“重试”重新生成;如果结尾仓促,可以手动微调该句的“结束时间”,稍微延长一点(例如从 00:00:08,000 改为 00:00:08,500),然后点击“重试”,让 TTS 在新的时长内重新生成。
  4. 检查高级设置:在“菜单-工具-高级选项-字幕配音调整”中,确认“移除配音前后静音缓冲”未被选中,以避免软件主动裁剪音频。

总结步骤:

  • 输入:使用带时间轴的字幕文件。
  • 调整:适当降低配音语速。
  • 校对:在配音校对中手动调整有问题句子的结束时间并重试。

请查阅相关文档:
为何会出现声音、字幕、画面不同步

把结束时间往后调并不会让结尾完整而是降低整段语速,结尾还是太仓促

这是由于 Qwen-TTS 在生成音频时,其内部算法是根据给定的文本和总时长来均匀分配语速。当你只延长结束时间(即增加总时长),它会把多出来的时间平均分配到整段话上,导致整体语速变慢,但结尾的“仓促感”(即最后一个字的发音时长和强度)可能并未得到针对性改善。解决方案:在文本中手动添加停顿符号:尝试在字幕文本的结尾处、需要强调或拉长发音的词后面,手动添加停顿符号。对于 Qwen-TTS,可以尝试使用英文逗号 ,、句号 .、或省略号 … 等标点,有时 TTS 引擎会将这些识别为需要停顿的标记。例如,将“你两眼空空”改为“你两眼空空...”。使用“配音语速”和“音调”微调:在配音设置中,尝试组合调整“配音语速”(适当降低,如 -10%)和“音调”(轻微提高,如 +20Hz)。不同的参数组合可能会改变结尾字的发音特性。更换 TTS 渠道进行测试:为了判断是否是 Qwen-TTS 渠道的固有限制,可以临时切换到另一个支持克隆的本地渠道(如 F5-TTS 或 CosyVoice),使用相同的字幕和时间轴进行测试,看结尾发音是否依然仓促。如果其他渠道正常,则问题可能出在 Qwen-TTS 的特定实现上。拆分字幕行:如果该句字幕本身较长(如超过10秒),可以考虑在“配音校对”界面,使用“拆分”功能,将这一长句字幕拆分成两句或更多短句。这样每句的时长更短,TTS 生成的压力更小,可能改善每句的结尾质量。这是解决长句发音问题的有效方法。提供反馈:如果问题普遍存在且严重影响使用,建议通过软件内的“报告错误”功能或官方论坛提交此问题,附上具体的字幕文本、时间轴和生成的音频样本,以便开发者优化 Qwen-TTS 渠道的集成。

image
这里的提示词只能改变内置音色的情绪,怎么改变克隆音色的情绪?

根据核心知识库,目前 pyVideoTrans 软件本身没有提供直接修改克隆音色情绪的专用界面或参数。克隆音色的情绪和风格主要依赖于参考音频本身。解决方案:通过参考音频控制情绪:克隆音色的“情绪”本质上是对参考音频音色的复现。要改变情绪,你需要提供带有目标情绪(如开心、悲伤、愤怒)的参考音频片段。在视频翻译中,这通常意味着选择原视频中带有相应情绪说话的片段所对应的字幕行进行克隆。使用支持情绪控制的独立 TTS 服务:一些需要独立部署的 TTS 服务(如 F5-TTS、CosyVoice 的官方 WebUI)可能在其原生界面中提供了更细粒度的控制参数,包括情绪、语速、音高等。你可以先在这些服务的独立界面中调试出满意的声音,然后将其 API 地址配置到 pyVideoTrans 中使用。在提示词中尝试加入情绪描述(效果不确定):虽然知识库未明确说明,但某些 TTS 引擎的 API 可能能解析文本中的情绪指令。你可以尝试在“配音角色”的输入框中,或在“提示词”文本框中,除了选择 clone,额外添加描述,例如 clone, happyclone, sad。但这属于实验性方法,取决于后端 TTS 是否支持。总结:最可靠的方法是提供带有目标情绪的参考音频。如需精细控制,需研究并配置外部 TTS 服务的原生参数。请查阅相关文档:如何使用原视频中音色配音使用F5-TTS配音在视频翻译软件中使用 CosyVoice3

Post Your Reply