• #4167 videotrans.configure._except.StopRetry: models/gemini-1.5-flash-latest is not found for API version v1beta, or is not supported for generateContent. Call ListModels to see the list...
    💬 1
    [Last reply:1 month ago] 这是因为你配置的 Gemini 模型名称 gemini-1.5-flash-latest 在当前 API 版本下不存在或不被支持。打开 pyVideoTrans 软件,点击顶部菜单栏的 翻译设置。在打开的设置窗口中,找到并点击 Gemini 标签页。检查 模型 输入框中的内容。你需要将其修改为当前 Gemini API 支持的有效模型名称。推荐模型:gemini-1.5-flash 或 gemin...
    2400:4050* Posted at: 1 month ago
  • #4162 KeyError: 'km'...
    💬 17
    [Last reply:1 month ago] 降噪功能用于在语音识别前,先消除音频中的环境噪声(如风声、电流声、背景音乐等),从而提升语音识别的准确率。是否推荐勾选,取决于你的原始视频/音频质量:推荐勾选的情况:原始音视频存在明显的环境噪音、背景音乐干扰或录音质量较差。不推荐勾选的情况:原始音视频人声清晰、背景干净,或者你追求最快的处理速度(因为降噪需要额外下载模型并增加处理时间)。操作位置:在主界面“语音识别”行右侧,有一个 降噪 复选框,...
    82.27* Posted at: 1 month ago
  • #4166 我要翻译中文音频,给我最近最合适的配置参数,并且告知设置的位置在哪,还有推荐的模型选择...
    💬 1
    [Last reply:1 month ago] 要翻译中文音频,推荐以下配置参数以获得最佳效果:一、语音识别 (ASR) 阶段渠道与模型:选择 qwen-asr(本地) 或 faster-whisper(本地) 的 large-v3 模型。qwen-asr 对中文支持效果较好。设置位置:在主界面“语音识别”行的下拉列表中选择。关键参数:发音语言:必须明确选择 中文。降噪:如果音频有背景噪音,勾选此项。高级选项(菜单 -> 工具/选项 -&...
    47.250* Posted at: 1 month ago
  • #4165 在翻译视频或音频,可能是视频上普通话不标准,导致有些文字有很多错别字,这个怎么调整...
    💬 3
    [Last reply:1 month ago] 这是由于说话人口齿不清导致语音识别模型难以准确解析。可以通过优化识别参数和预处理音频来改善。调整语音识别高级参数:点击 菜单 -> 工具/选项 -> 高级选项。在“语音识别参数”区域,进行以下调整:语音阈值:适当降低(例如从0.5改为0.3或0.2),让模型更“敏感”,尝试捕捉不清晰的语音。no speech threshold:适当降低(例如从默认值0.6改为0.4),减少模型因不确...
    47.250* Posted at: 1 month ago
  • #4164 speech_recognition.exceptions.RequestError: recognition request failed: Service Unavailable...
    💬 1
    [Last reply:1 month ago] 这是由于 Google 语音识别服务不可用导致的网络连接问题。解决方案:检查网络代理:如果你在中国大陆,使用 Google 服务需要配置网络代理。请确保主界面“网络代理地址”已正确填写(格式如 http://127.0.0.1:10808)。如果没有可用代理,请勿填写。切换语音识别渠道:Google 语音识别为在线服务,不稳定。建议改用本地识别渠道,如 faster-whisper(本地) 或 o...
    103.151* Posted at: 1 month ago
  • #4163 原始视频是英文,第一句对白出现是第4秒开始的,但语音识别默认的时间是从0秒起开始的,后面倒是都没问题,但第一句对不上,什么原因...
    💬 13
    [Last reply:1 month ago] 这是由于字幕编辑窗口的交互设计限制,当前版本中,在“单视频交互模式”弹出的编辑窗口里,确实无法直接通过点击或双击来修改字幕的“开始时间”和“结束时间”单元格。解决方案:直接编辑 SRT 文件(最有效):在语音识别阶段完成后,不要关闭弹出的字幕编辑窗口。在该窗口中,点击右下角的 保存 按钮,软件会生成一个临时的 .srt 字幕文件。使用系统自带的“记事本”或专业的字幕编辑器(如 Subtitle E...
    2409:8a55* Posted at: 1 month ago
  • #4161 TaskCfgVTT(is_cuda=True, uuid='e6e9c2f4e7', cache_folder='E:/软件/win-pyvideotrans-v3.99-418/tmp/16876/e6e9c2f4e7', target_dir='F:/下载/哔哩哔哩视频/新建文件夹/01.金鹿号-mp4', source_language='英语', ...
    💬 1
    [Last reply:1 month ago] 这是由于显存或内存不足导致的。错误信息明确指出在使用 faster-whisper(本地) 的 large-v3-turbo 模型时,GPU 进程池异常终止,原因是显存或内存不足。请按以下步骤尝试解决:降低模型大小:在主界面的语音识别渠道中,将模型从 large-v3-turbo 更换为更小的模型,例如 medium、small 或 base。large-v3-turbo 模型对显存和内存要求较高...
    171.92* Posted at: 1 month ago
  • #4160 OSError: Error no file named pytorch_model.bin, model.safetensors, tf_model.h5, model.ckpt.index or flax_model.msgpack found in directory D:/APP/win-pyvideotrans-v3.98-0401/models/...
    💬 1
    [Last reply:1 month ago] 这是 Qwen-TTS(本地) 配音渠道的模型文件下载不完整或缺失导致的错误。解决方案:检查模型目录:前往软件安装目录 D:/APP/win-pyvideotrans-v3.98-0401/models/,查看是否存在名为 models--Qwen--Qwen3-TTS-12Hz-1.7B-CustomVoice 的文件夹。手动下载模型:如果该文件夹存在,但内部缺少 pytorch_model.b...
    64.118* Posted at: 1 month ago
  • #4154 无法正常调用GPU进行加速的问题...
    💬 30
    [Last reply:1 month ago] 是的,根据截图和知识库信息,LLM重新断句功能目前不支持本地LLM。在 菜单 -> 工具/选项 -> 高级选项 的 【通用设置】 区域,“LLM重新断句所用AI渠道” 的下拉选项中只包含 openai 和 deepseek 两种在线AI渠道,没有本地LLM的选项。这意味着该功能目前只能调用配置了API Key的在线AI服务(如OpenAI或DeepSeek)来执行重新断句。如果您希望使...
    156.229* Posted at: 1 month ago
  • #4159 [mov,mp4,m4a,3gp,3g2,mj2 @ 00000267be3504c0] moov atom not found F:/softwares/win-pyvideotrans-v3.96-22/tmp/4896/ab26504aef/novoice.mp4: Invalid data found when processing input...
    💬 1
    [Last reply:1 month ago] 这是由于视频处理过程中生成的无声视频文件损坏导致的,具体表现为 moov atom not found 错误。解决方案:清理缓存并重试:在软件主界面左上角勾选 清理已生成 复选框,然后重新处理视频。这将强制软件重新生成所有中间文件。检查文件路径:确保输入视频的文件路径和名称简短且不含中文或特殊符号。建议将视频移动到浅层目录(如 D:\video.mp4)并重命名为纯英文或数字名称。检查磁盘空间:确...
    77.93* Posted at: 1 month ago
  • #4158 pyvideotrans目录中包含有哪些提示词文件,这些提示词文件分别又对应的是哪些功能,如果我的需求是把v3.98的这些配置覆盖到3.99版本,我要覆盖哪些文件才行...
    💬 5
    [Last reply:1 month ago] recharge-llm.txt 文件的主要内容是指导 AI 大模型(如 GPT、DeepSeek 等)如何对语音识别生成的字幕进行重新断句和优化的系统指令。其核心目的是:将识别出的、可能过长或过短、断句不自然的字幕,根据语义和语法规则,重新分割成更符合阅读习惯、长度更适宜的句子。该提示词文件通常会包含以下关键指令:任务定义:明确要求模型将提供的字幕文本重新断句。输入格式:说明输入是带有行号和时间...
    2409:8a55* Posted at: 1 month ago
  • #4157 二次语音识别在什么情况下不会生效...
    💬 1
    [Last reply:1 month ago] 二次语音识别(二次识别)在以下情况下不会生效:未选择配音:二次识别仅在“视频翻译”或“批量为字幕配音”功能中,选择了配音渠道并生成了配音音频后才会执行。如果只进行语音识别和翻译,不进行配音,则二次识别不会触发。未嵌入单字幕:在主界面中,如果字幕嵌入方式选择了“不嵌入字幕”、“嵌入硬字幕(双)”或“嵌入软字幕(双)”,二次识别不会生效。它仅在选择了“嵌入硬字幕”或“嵌入软字幕”(即单字幕)时才会启用...
    2409:8a55* Posted at: 1 month ago
  • #4156 语音识别环节断句问题...
    💬 5
    [Last reply:1 month ago] 这是“合并过短字幕”功能与原始音频语义切分之间的权衡结果。当您启用“合并过短字幕到邻近”后,软件会强制将过短的句子与相邻句子合并,以消除过短片段。合并的逻辑是基于时间相邻性,而非语义完整性,因此可能将原本语义独立但时间上接近的两句话合并成一句,从而导致合并后的字幕行时长变长(例如7-8秒)。要解决此问题,您需要调整“最长语音持续秒数”和“最短语音持续毫秒”的数值,找到一个平衡点。建议尝试以下步骤:...
    2409:8a55* Posted at: 1 month ago
  • #4155 就是半句话,末尾没标点,另一半在下一条字幕的开始位置,这种怎么样避免,至少在切分字幕的时候,能保证一个短句得说完,以出现标点为准...
    💬 1
    [Last reply:1 month ago] 这是由于语音识别模型在分割音频片段时,没有以完整的句子或标点符号为边界导致的。要确保字幕以完整句子为单位,避免半截句,需要进行以下配置调整。解决方案:调整语音识别参数:打开软件,点击顶部菜单栏的 工具/选项 -> 高级选项。找到 【语音识别参数】 区域。将 静音分割持续毫秒 的值增大,例如从默认的 500 调整为 800 或 1000。这会让模型在更长的静音后才进行分割,从而更可能在一个完整...
    2409:8a55* Posted at: 1 month ago
  • #1642 在翻译 srt 字幕时,添加了术语表,为什么没有按照术语表的设置翻译?...
    💬 11
    [Last reply:1 month ago] AI翻译的温度参数(temperature)设置不起作用,通常是因为您使用的翻译渠道不支持此参数。原因与解决方案:确认翻译渠道:温度参数是大型语言模型(LLM)特有的高级参数,仅对 OpenAI ChatGPT、DeepSeek、Gemini、Claude 等 AI 渠道有效。如果您使用的是 Google、微软、百度等传统翻译引擎,该设置无效。检查设置位置:温度参数在 菜单 - 工具/选项 - 高...
    38.150* Posted at: 6 months ago
  • #4153 英语语音识别,推荐用哪个渠道...
    💬 1
    [Last reply:1 month ago] 英语语音识别推荐使用 faster-whisper(本地) 渠道,并选择 large-v3 模型。这是兼顾速度与准确度的最佳免费本地方案。具体配置步骤如下:在主界面“语音识别”下拉菜单中,选择 faster-whisper(本地)。在右侧模型选择中,选择 large-v3 模型(效果最好)。如果您的硬件资源有限,可降级选择 medium 或 small 模型。确保“发音语言”已正确设置为 英语。如...
    2409:8a55* Posted at: 1 month ago
  • #4152 tenvad和silero有什么区别...
    💬 5
    [Last reply:1 month ago] “文本规范化”是指在配音前,对字幕文本进行预处理,使其更符合语音合成的发音规则,从而提高配音的自然度和准确性。核心作用:处理数字、符号、缩写等:例如,将“2024年”转换为“二零二四年”,将“100kg”转换为“一百千克”,将“Dr.”根据上下文转换为“Doctor”或“Drive”。统一格式:确保文本格式一致,避免因特殊字符或格式问题导致TTS引擎发音错误或生成静音。优化发音:针对特定语言进行优...
    2409:8a55* Posted at: 1 month ago
  • #4151 LLM重新断句该怎样设置...
    💬 1
    [Last reply:1 month ago] LLM重新断句功能用于优化语音识别后生成的字幕断句效果,使其更符合阅读习惯。设置步骤如下:在软件主界面,点击顶部菜单栏的 工具/选项 -> 高级选项。在弹出的高级选项窗口中,找到 【通用设置】 区域。设置相关参数:LLM重新断句每批字幕行数:设置每次发送给AI模型处理的字幕条数。数值越大,断句效果越好(上下文更完整),但可能受限于AI模型的上下文长度限制。默认值为20。LLM重新断句所用AI...
    120.231* Posted at: 1 month ago
  • #4146 能兼容调用UVR5 - MDX23C-InstVoc HQ模型吗?...
    💬 4
    [Last reply:1 month ago] 核心原因是软件内置的人声分离模型(UVR)效果可能不如你期望的 UVR5 - MDX23C-InstVoc HQ 模型。根据开发者回复,软件主界面“设置更多参数”中勾选的“分离人声背景声”,默认使用的就是 UVR 模型。如果你已启用此选项但效果仍不理想,说明当前内置的模型分离能力不足以完全滤除你视频中的背景音乐干扰。解决方案如下:手动预处理(推荐):使用外部的 UVR5 工具(含 MDX23C-I...
    142.202* Posted at: 1 month ago
  • #4150 Permission denied: C:/Users/Solofo/Documents/test/YouTube Killed Shorts - WAN Show April 17, 2026.mp3...
    💬 1
    [Last reply:1 month ago] This error occurs because the file path contains special characters (like ?) or is too long, which is not compatible with Windows command-line operations (used by ffmpeg).Solution:Rename the file: Cha...
    78.120* Posted at: 1 month ago
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource