-
#4329 能否使用ollama安装的本地大模型...
💬 1[Last reply:1 month ago] 可以使用 Ollama 安装的本地大模型作为翻译渠道。 配置方法如下:确保 Ollama 已安装并启动(默认 API 地址 http://localhost:11434/v1)。在 pyVideoTrans 主界面,点击顶部菜单 翻译设置 → 本地大模型设置。翻译渠道选择 兼容AI/本地模型,然后在设置面板中填写:API 地址:http://localhost:11434/v1(若部署在其它机器...2409:896d* Posted at: 1 month ago -
#4328 403, message='Invalid response status', url='wss://speech.platform.bing.com/consumer/speech/synthesize/readaloud/edge/v1?TrustedClientToken=6A5AA1D4EAFF4E9FB37E23D68491D6F4&Sec-MS-...
💬 1[Last reply:1 month ago] 这是由于微软 Edge-TTS 服务临时限流导致的 403 错误,通常因请求频率过高触发。解决方案:点击顶部菜单 工具/选项 → 高级选项。找到 字幕配音调整 区域。将 并发配音线程数 设为 1。将 配音后暂停秒 设为 5 到 10 秒。保存设置后重新执行任务。请查阅相关文档:edge-tts常见错误edgeTTS 配音渠道...149.52* Posted at: 1 month ago -
#4327 回答提示:内存或显存不足,使用小点的模型。请问要求什么配置?...
💬 1[Last reply:1 month ago] 这是由显存或内存不足导致的,使用大型模型时对硬件资源有较高要求。硬件配置要求:若使用本地 faster-whisper 的 large-v3 模型,推荐配置:NVIDIA显卡(支持CUDA)且显存 ≥ 10 GB,或系统内存 ≥ 16 GB(不使用GPU加速时)。若使用 medium、small 等较小模型,硬件门槛相应降低。GPU加速必须安装 CUDA 12.8 和 cuDNN 9.11,且仅支...2408:8256* Posted at: 1 month ago -
#4326 onnxruntime.capi.onnxruntime_pybind11_state.RuntimeException: [ONNXRuntimeError] : 6 : RUNTIME_EXCEPTION : Non-zero status code returned while running LSTM node. Name:'/decoder/rnn...
💬 1[Last reply:1 month ago] 问题源于 Silero VAD 模型运行时,ONNX Runtime 内存分配失败 (bad allocation)。这通常意味着系统可用内存或显存资源不足。可尝试以下步骤解决:尝试切换 VAD 模型:打开 菜单 - 工具/选项 - 高级选项,在【语音识别参数】区域找到 选择VAD 选项,将其从 silero 切换为 ten-vad。降低任务并行度:在主界面关闭 二次识别 功能,避免多任务同时消耗...2408:8256* Posted at: 1 month ago -
#4325 如何设置可以消除视频中原有字幕?...
💬 1[Last reply:1 month ago] pyVideoTrans 无法消除视频画面中已经存在的硬字幕(烧录在图像上的字幕)。软件只处理音频生成新字幕,不具备视频画面编辑或去水印/去字幕功能。如果原视频字幕是软字幕(独立轨道),可通过不内嵌原语言字幕实现只保留俄语,但无法抹除已编码进画面的文字。如何只输出俄语字幕(不显示汉语)在翻译完成后,设置字幕嵌入方式:若希望俄语字幕固定显示在画面上:选择 嵌入硬字幕,不要选 (双)。若希望播放时可开...2409:8a1e* Posted at: 1 month ago -
#4324 TaskCfgSTT(is_cuda=False, uuid='2a756a7671', cache_folder='E:/win-pyvideotrans-v3.99-420/tmp/3840/2a756a7671', target_dir='E:/win-pyvideotrans-v3.99-420/output/recogn', source_lang...
💬 1[Last reply:1 month ago] 这是内存不足导致的语音识别失败,音频解码后生成的数组太大(约563MB),超出了系统可用内存。解决方法(按推荐顺序尝试):使用更小的模型。当前选用的是 large-v3-turbo,对内存要求较高。请在语音识别渠道右侧将模型更换为 small、base 甚至 tiny。模型越小,内存占用越低。开启 CUDA 加速(如果你的电脑配有 NVIDIA 显卡)。在主界面勾选CUDA加速,并将模型换回 la...2408:8256* Posted at: 1 month ago -
#4323 cli模式生成的视频格式不对,打开提示需要hevc解码器,GUI生成的视频可以正常打开...
💬 1[Last reply:1 month ago] 出现 HEVC 解码器提示,是因为 CLI 模式生成的视频默认采用了 H.265/HEVC 编码,而你的播放环境可能不支持该格式。GUI 模式下你可能在“高级选项”中设置了编码为 H.264,因此播放正常。CLI 模式不会自动读取 GUI 的配置,需要使用参数手动指定编码。可通过以下两种方式解决:在 CLI 命令中强制指定 H.264 编码 根据 CLI 使用文档 添加相关参数(如 --vide...36.7* Posted at: 1 month ago -
#4279 为什么语音识别阶段老是识别一半就不干活了?...
💬 19[Last reply:1 month ago] 推荐使用默认值 500 毫秒,这是适用多数场景的平衡值。 该参数决定:检测到多长的连续静音后,才将前后语音切分开。减小值(如 200ms):切分更灵敏,字幕片段可能更碎,但能捕捉稍作停顿的短句。增大值(如 1000ms):切分更迟钝,字幕片段更长,适合连贯叙述,但可能合并本应分开的句子。调节建议:如果识别后字幕断句过碎或一句话被切成多段,适当增大至 800-1000ms。如果一句话里明显包含多个...240e:355* Posted at: 1 month ago -
#4322 TaskCfgVTT(is_cuda=True, uuid='addc14beda', cache_folder='F:/win-pyvideotrans-v3.99-418/tmp/13256/addc14beda', target_dir='D:/AAA/Berkshire Hathaway Annual Meetings/_video_out/199...
💬 1[Last reply:1 month ago] 这是由于 CUDA 环境异常导致的语音识别启动失败,常见原因包括 CUDA/cuDNN 版本不匹配、驱动过旧或显存不足。解决步骤:检查 CUDA 和 cuDNN 版本:软件需要 CUDA 12.8 和 cuDNN 9.11 或更高版本。在命令行执行 nvcc -V 和 nvidia-smi 确认。若不满足,请参照文档重新安装。更新显卡驱动:确保 NVIDIA 驱动为最新。降低显存占用:尝试将模型从...220.246* Posted at: 1 month ago -
#4298 补丁包怎么用...
💬 21[Last reply:1 month ago] 若感觉新版软件处理速度变慢,通常与默认配置或功能开启状态有关,并非软件本身降速。可尝试以下优化:检查是否开启了“二次识别”、“视频慢速”或“分离人声背景声”,这些功能会显著增加处理耗时,非必要时建议关闭。在菜单 → 工具/选项 → 高级选项 → 通用设置中,适当增大最大进程数(不超过CPU核数-1),并将并发配音线程数设为较高值(如 4-8),但需注意 API 限流。语音识别若使用本地模型,确认已...67.209* Posted at: 1 month ago -
#4320 TaskCfgVTT(is_cuda=True, uuid='12e409df79', cache_folder='F:/win-pyvideotrans-v3.99-418/tmp/30472/12e409df79', target_dir='F:/AAA/The Art of Negotiating the Best Deal/_video_out/17...
💬 1[Last reply:1 month ago] 这是CUDA计算库执行失败,通常与显存不足、CUDA/cuDNN环境版本不兼容或驱动异常有关。当前使用了 openai-whisper(本地) 的 large-v3 模型,且开启了CUDA加速(is_cuda=True),很可能因显存压力或库冲突导致 cublasLtMatmul 运算失败。请按以下步骤逐一排查:降低显存与计算负载进入 菜单→工具→高级选项→语音识别参数。将 CUDA数据类型 改为...220.246* Posted at: 1 month ago -
#4312 比如双语字幕中,英文字幕如果过长,会自动换行,能不能取消这个设定,不管多长都不要最后合成双语字幕时自动换行...
💬 13[Last reply:1 month ago] 是的,你的推断完全正确。关于时间轴的固定性:在不开启二次识别且不做任何人工修改的前提下,字幕的时间轴严格由第一步“语音识别”阶段决定。翻译和配音阶段只会根据原始语音识别出的字幕序号和时间戳,填入新的配音音频。除非勾选了强制变速选项(如配音加速),否则这些时间戳的起止点本身不会因为配音内容变短而自动缩短。关于字幕滞留的成因:你观察到的“配音结束后字幕仍然一直存在”,正是因为原始英语语音识别出的时间轴...2409:8a55* Posted at: 1 month ago -
#4319 生成的字幕有很多“啊”哦嗯等语气词...
💬 1[Last reply:1 month ago] 识别结果中包含大量语气词(如“啊”、“哦”、“嗯”)通常是因为语音活动检测(VAD)的阈值设置过低,导致将短暂的非语义声音当成了有效语音。解决方法:打开 菜单 → 工具/选项 → 高级选项,定位到 语音识别参数 区域。适当 提高“语音阈值”(例如改为 0.6 或 0.7),让模型只保留更有把握的语音片段。增大 “最短语音持续毫秒数”(例如设为 500–800 毫秒),这样时长很短的语气词片段就会被...240e:39e* Posted at: 1 month ago -
#4318 翻译字幕阶段出错[DeepSeek]内容太长超出最大允许Token,请减小内容或增大max_token,或者降低每次发送字幕行数Could not parse response content as the length limit was......
💬 1[Last reply:1 month ago] DeepSeek 返回“内容太长超出最大允许 Token”,说明当前单次提交给翻译接口的文本长度超过了该模型的上下文限制。解决方案降低 “AI翻译渠道每批字幕行数”进入菜单 工具/选项 → 高级选项 → 字幕翻译调整,将 AI翻译渠道每批字幕行数 改为 5~10(默认可能较大),减少每次发送的字幕量。取消 “发送完整字幕”(如果已勾选)发送完整字幕会附带时间轴等格式,增加 Token 占用。在翻译...5.34* Posted at: 1 month ago -
#4317 高级选项的内容保存之后,下次打开某些数据又恢复原来的设置了...
💬 1[Last reply:1 month ago] 这通常是旧版本中的一个配置保存 Bug 导致的,v3.99 已修复该问题。解决方案:升级至最新版本 v3.99。下载完整包后解压覆盖,或直接使用最新补丁包更新。确保软件存放路径不含中文或特殊符号(如空格),推荐放置在 D:\pyVideoTrans 等纯英文目录。若仍出现该问题,尝试右键 sp.exe 以管理员身份运行一次,并重新保存配置。如果以上步骤无效,请提供 logs 目录下最新的日志文件,...104.238* Posted at: 1 month ago -
#4316 TaskCfgVTT(is_cuda=True, uuid='8e7c680f78', cache_folder='D:/ruanjian/win-pyvideotrans-v3.99-420/tmp/10096/8e7c680f78', target_dir='D:/Videos/剪映导出文档/_video_out/4月27日-1-mp4', source...
💬 1[Last reply:1 month ago] 报错原因:本地 Qwen3-TTS 模型不支持泰语配音,其支持的语言列表为 ['auto', 'chinese', 'english', 'french', 'german', 'italian', 'japanese', 'korean'...103.172* Posted at: 1 month ago -
#4315 TaskCfgVTT(is_cuda=True, uuid='e670583605', cache_folder='D:/win-pyvideotrans-v3.99-420/tmp/17460/e670583605', target_dir='H:/mid4/_video_out/[email protected]_8K-wav', ...
💬 1[Last reply:1 month ago] OmniVoice 服务端抛出了异常,但它的 Gradio 应用没有开启详细错误报告,因此无法直接看到具体错误参数。pyVideoTrans v3.99 已适配 OmniVoice 新增的必选参数 instruct,如果你的软件版本低于 v3.99 就会出现此类错误。解决方案:从官网重新下载最新的 v3.99 完整包:https://pyvideotrans.com/downpackage解压并覆...104.238* Posted at: 1 month ago -
#4314 TaskCfgVTT(is_cuda=True, uuid='00d7d8c483', cache_folder='D:/win-pyvideotrans-v3.99-420/tmp/17460/00d7d8c483', target_dir='H:/mid4/_video_out/[email protected]_8K-wav', ...
💬 1[Last reply:1 month ago] [WinError 10061] 连接被拒绝,说明软件无法连接到你在本地部署的 OmniVoice-TTS 服务。这是步骤:确认 OmniVoice-TTS 的服务端正在运行(启动它的终端窗口不能关闭)。通常它是一个基于 Gradio 的 WebUI,默认地址类似 http://127.0.0.1:7860。在 pyVideoTrans 中检查 API 地址:点击菜单 TTS设置 → F5-TTS...172.96* Posted at: 1 month ago -
#4313 speech_recognition.exceptions.RequestError: recognition connection failed: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。...
💬 3[Last reply:1 month ago] faster-whisper(本地) 是软件默认的语音识别渠道,位于主界面「语音识别」行右侧的下拉框中。正常情况下启动软件后,下拉框的第一项(默认选中项)就是 faster-whisper(本地)。如果你没有看到该选项,请检查:软件是否为完整包(不要使用仅升级补丁包),可尝试重新下载完整版解压到新目录运行。语言界面是否被修改过,尝试关闭软件后删除根目录下的 videotrans/configure...240e:338* Posted at: 1 month ago -
#4311 TaskCfgSTS(is_cuda=False, uuid='b3ba860941', cache_folder=None, target_dir='E:/PH', source_language=None, source_language_code='Korean', source_sub='E:/PH/2.srt', source_wav=None, ...
💬 1[Last reply:1 month ago] This error is caused by sending an excessively large translation request to the AI model, exceeding its maximum output token limit. The model hit its max_tokens cap (likely 16 384 tokens in this case)...202.150* Posted at: 1 month ago
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.