-
#4742 TaskCfg(cache_folder='F:/桌面/win-pyvideotrans-v3.92/tmp/19076/49b2eaebbd', target_dir='f:/桌面/win-pyvideotrans-v3.92/output/recogn', remove_noise=True, is_separate=False, detect_lang...
💬 7[Last reply:6 days ago] 根据最新日志,VAD 已能识别有效语音,ASR 也成功转录出了德语字幕。问题出在 LLM 重新断句阶段:LLM 将原本完整的约 17 秒长句拆分成多个短句,并插入了一条 [Pause] 占位条目。这可能导致最终字幕中缺失了部分内容(例如 第一个长句的后半部分被丢弃或时间轴错乱)。解决方案1. 关闭 LLM 重新断句(推荐,立即生效)进入 菜单 → 工具/选项 → 高级选项找到 语音识别参数 区域下...103.231* Posted at: 6 days ago -
#4741 TaskCfg(cache_folder='F:/桌面/win-pyvideotrans-v3.92/tmp/4956/e5103b343b', target_dir='f:/桌面/win-pyvideotrans-v3.92/output/recogn', remove_noise=True, is_separate=False, detect_langu...
💬 3[Last reply:6 days ago] 核心问题依旧是 视频路径含中文、括号和空格,以及 发音语言选择错误。请严格按照以下步骤操作,不要遗漏:1. 彻底重置文件路径将视频复制或移动到 D:\videos\ 目录下。重命名文件为纯英文,不含任何标点、空格、括号、中文。例如:bf1.mp4然后重新启动软件(如果未退出,建议退出后重新打开 sp.exe),在主界面选择新的视频文件(即 D:\videos\bf1.mp4),不要使用之前的旧文件...103.231* Posted at: 6 days ago -
#4739 字幕识别准确性不高,有错误...
💬 9[Last reply:6 days ago] 参数不准确往往是因为单一参数无法适配所有视频。建议从以下方向重新排查和调整,而不是仅依赖一组固定数值:确认发音语言已手动指定:不要使用“自动检测”,必须明确选择视频实际语言(如中文选“简体中文”),错误语言会大幅降低识别率。更换ASR模型:中文视频:优先试用 Qwen-ASR(本地) 或 字节语音大模型极速版,效果远优于通用模型。其他语言:使用 openai-whisper(本地) + large...103.231* Posted at: 6 days ago -
#4687 ModuleNotFoundError: No module named 'videotrans.tts._gptsovits'...
💬 7[Last reply:6 days ago] 根据你提供的确认信息(多个来源的完整包均缺失 videotrans/tts/ 目录),基本可以判定:官方 v4.00 完整包(2.6G 版本)在打包时遗漏了整个 videotrans/tts/ 子模块。这不是你个人操作或环境问题,而是发布包的结构缺陷。因为软件运行时需要 _gptsovits.py 及其他配音渠道模块,该缺失直接导致模块加载失败。解决方案(任选一种):方案一:使用补丁包补充缺失文件...112.32* Posted at: 9 days ago -
#4740 TaskCfg(cache_folder='F:/桌面/win-pyvideotrans-v3.92/tmp/18336/663bbaa5a2', target_dir='F:/桌面/win-pyvideotrans-v3.92/output/recogn', remove_noise=True, is_separate=False, detect_lang...
💬 1[Last reply:6 days ago] 错误原因是网络无法连接 HuggingFace 服务器,导致自动下载模型失败。请按以下步骤手动下载模型文件:打开提示中的链接:https://huggingface.co/Systran/faster-whisper-large-v3/tree/main下载所有 .bin, .txt, .json 文件(如 model.bin, config.json, tokenizer.json, vocab...103.231* Posted at: 6 days ago -
#4738 使用CosyVoice3本地配音时会有很多句子缺失或只配了一半...
💬 1[Last reply:6 days ago] 你的问题很可能是由 参考音频不符合要求 或 语音识别参数未适配声音克隆 造成的。 CosyVoice3 在使用 clone 角色时,对参考音频和输入字幕的时长有严格限制:参考音频:必须放置在软件根目录下的 f5-tts/ 文件夹内,格式为 .wav,时长 3~10 秒。超过或不足均会导致合成失败、返回静音或直接跳过。字幕时长:如果某句字幕对应的原始语音片段时长 < 3 秒或 > 10...147.45* Posted at: 6 days ago -
#4737 RuntimeError: {'message': 'prompt_lang: ru is not supported in version v2'}...
💬 1[Last reply:6 days ago] 这是由于 GPT-SoVITS 配音渠道的 v2 API 不支持俄语(ru)导致的。解决方案:切换为 v1 接口:在「菜单 → TTS设置 → GPT-SoVITS」界面中,取消勾选 api_v2 选项,然后重新尝试翻译。更换配音渠道:如果必须支持俄语,请改用支持俄语的配音渠道,例如 Edge-TTS(免费)、OmniVoice-TTS 或 CosyVoice(在「主界面 → 配音角色」中选择对应...112.123* Posted at: 6 days ago -
#4736 翻译现在可以用原语音的音色多角色自动翻译语音了么...
💬 7[Last reply:6 days ago] 根据你提供的官方信息,VoxCPM2 确实支持通过风格引导(style guidance)和语音设计来控制情感、语调等语气参数。但当前 pyVideoTrans 集成的 VoxCPM 配音渠道(渠道号 10)仅实现了基础的参考音频克隆功能,未开放这些可控制语气的高级参数。软件界面中也没有对应的“风格引导”或“情感”输入项。若想直接使用语气控制,有两种可行方案:通过自定义 TTS API 接入:软件...36.37* Posted at: 6 days ago -
#4735 videotrans.util.help_ffmpeg._FFprobeInternalError: [mov,mp4,m4a,3gp,3g2,mj2 @ 00000198e3c26f40] moov atom not found E:/tmp/6968/15a4753280/novoice.mp4: Invalid data found when proc...
💬 1[Last reply:6 days ago] 此错误表明在处理过程中生成的临时视频文件 novoice.mp4 损坏或不完整(缺失“moov原子”),通常是 ffmpeg 合成时意外中断所致。解决方案:检查磁盘空间:确保 E: 盘有足够剩余空间(至少视频文件大小的 2 倍)。重新运行任务:在主界面勾选 清理已生成,强制重新处理整个视频。避免中断:处理期间不要关闭软件、休眠或杀毒软件拦截 ffmpeg 进程。路径优化:将原始视频文件移至浅层纯英...113.86* Posted at: 6 days ago -
#4734 我看到更新4.0版本了,对于3.99,有很大的提升吗?有必要升级吗?...
💬 9[Last reply:6 days ago] 根据核心知识库,目前软件支持的配音渠道包括 Edge-TTS(免费)、OmniVoice(本地API)、F5-TTS(本地API)、CosyVoice(本地API)、GPT-SoVITS(本地API) 等。Edge-TTS:完全免费,速度快,但由于微软高并发流控,建议在高级设置中将并发数设为 1、请求间隔设为 5 秒,否则可能触发 403 或生成静音。F5-TTS / Index-TTS / Co...2a14:4900* Posted at: 6 days ago -
#944 RuntimeError: CUDA failed with error out of memory...
💬 9[Last reply:6 days ago] SuperTonic 是 pyVideoTrans 内置的一个轻量级 TTS(文字转语音)引擎,无需联网、无需部署额外服务,开箱即用。它主要提供中/英双语预定义发音角色。客观评价(基于技术特性):优点:完全本地、免费:不消耗 API 费用,不依赖外部服务,适合离线场景。角色丰富:内置多种可选声音(包括基于真实语音的克隆角色),在中英文场景下音色自然度表现良好。缺点:不支持自定义声音克隆:你无法像 ...240e:341* Posted at: 7 months ago -
#4733 TaskCfgVTT(uuid='0aca5a80c6', name='E:/-076-C.mp4', dirname='E:/', noextname='-076-C', basename='-076-C.mp4', ext='mp4', target_dir='E:/aaa/-076-C-mp4', cache_folder='E:/win-pyvide...
💬 1[Last reply:6 days ago] 这个错误是在视频合成的最后阶段 _join_video_audio_srt 函数中,某个被期望返回元组的函数返回了 None,导致解包失败。核心原因通常是字幕文件路径与视频文件名不匹配或缺失必要的音频/字幕文件。根本原因分析从你的配置日志可以看到:原始视频文件名:-076-C.mp4(注意前面有一个连字符 -)但你手动放置的字幕文件放在了 E:/aaa/RBK-076-C-mp4/ 目录下(文件名...2409:8a6a* Posted at: 6 days ago -
#4732 配音阶段出错 [Index TTS(本地)] 处理数据时缺少必需的键:'emo_control_method'Traceback (most recent call last): File "videotrans\tts\_f5tts.p......
💬 1[Last reply:6 days ago] 这是 Index-TTS 接口版本与软件未同步导致的参数不匹配。核心原因:Index-TTS 本地 API 升级后增加了 emo_control_method 必选参数,但当前使用的 v3.99 版本代码未包含该参数,因此报 KeyError。底层 CUDA 错误:可能是显存不足或 CUDA 驱动/工具链不兼容,后续可在升级后按需调整。解决方案:升级到最新完整包 v4.00下载地址:pyVideo...2409:8a55* Posted at: 6 days ago -
#4724 用index -tts生成语音,等好几秒时间开始:Start inference 然后1秒生成语音,生成语音后,在等好几秒,才出现:Start inference...
💬 21[Last reply:6 days ago] Index-TTS 确实以其声音自然度著称,尤其在中文和英文配音上表现优秀。F5-TTS 和 CosyVoice 也是当前主流的本地 TTS 方案,自然度同样很高,且各有优势:- F5-TTS:基于扩散模型,支持中文、英文等多种语言,声音克隆效果出色,运行流畅,已集成在 pyVideoTrans 中可直接使用。其自然度在社区评价中与 Index-TTS 相当,且模型常驻无等待延迟。- CosyVo...2a14:4900* Posted at: 7 days ago -
#4731 openai.BadRequestError: Error code: 400 - {'error': {'message': 这是啥情况...
💬 1[Last reply:6 days ago] 这是由于 OpenAI 新发布的模型(如 o1 系列或部分 gpt-4o 变体)不再支持 max_tokens 参数,而 pyVideoTrans 在调用时仍使用了该参数。您需要手动改用 max_completion_tokens 参数。具体操作步骤:检查当前使用的 AI 模型名称(在 菜单 -> 设置 -> OpenAI/兼容AI 中查看)。如果模型名称为 o1-mini、o1-pr...153.134* Posted at: 6 days ago -
#4730 LLM重新断句 设置大模型API按钮在哪里,关闭后就找不到了...
💬 1[Last reply:6 days ago] LLM重新断句所用AI渠道的设置并非独立入口,它直接复用你已配置的 AI 翻译渠道(如 OpenAI、DeepSeek 等)的密钥与模型。 也就是说,你需要先确保在顶部菜单中对应渠道的配置面板已填写正确:点击顶部菜单 → 找到你选择的 AI 渠道名称(例如 DeepSeek AI、OpenAI ChatGPT、硅基流动 等)。在打开的设置窗口中填入 API Key、Base URL(若需)、模型...104.248* Posted at: 6 days ago -
#4729 videotrans.configure.excepts.StopTask: Error code: 404...
💬 3[Last reply:6 days ago] Gemini 翻译渠道的 Base URL 并未在软件知识库中直接列出,通常由 Google Gemini API 决定。建议您按以下步骤操作:打开软件顶部菜单:设置 → 翻译渠道设置 → Gemini AI。查看该配置界面中是否已自动填充 Base URL(例如 https://generativelanguage.googleapis.com/v1 或 https://generativela...206.189* Posted at: 6 days ago -
#4728 TaskCfgSTT(is_cuda=True, uuid='3ed8d5a232', cache_folder='F:/AI剪辑/tmp/15436/3ed8d5a232', target_dir='F:/AI剪辑/output/recogn', source_language=None, source_language_code=None, source...
💬 1[Last reply:6 days ago] 预处理阶段出错的原因:视频文件路径及文件名包含 #、空格、中文等特殊字符,导致 FFmpeg 无法正确识别输入文件。解决方法重命名视频文件:将文件名改为纯英文或数字(例如 video.mp4),移除 #、空格、中文等符号。移动文件:将视频放到浅层目录(如 D:\videos\),避免过长的路径。重新载入软件:在 pyVideoTrans 中重新选择该文件进行翻译。请查阅相关文档:错误中含有 ffp...140.237* Posted at: 6 days ago -
#4727 怎么克隆原视频有多个人说话的声音,克隆后该怎么使用...
💬 8[Last reply:6 days ago] 根据知识库,clone-voice 是一个独立的 TTS 配音渠道(对应渠道序号27),需要先启动 clone-voice 的服务(app.exe),然后在 pyVideoTrans 软件中进行相应配置才能使用。但知识库中并未详细说明如何在 pyVideoTrans 的菜单中找到该选项。最可能的原因是:你需要通过主界面的“配音渠道”下拉列表直接选择 clone-voice,而不是在菜单→TTS设置...104.248* Posted at: 6 days ago -
#4726 该角色不支持试听=system:Windows-10-10.0.26200-SP0version:v4.00frozen:Truelanguage:zhroot_dir:D:/aaa...
💬 1[Last reply:7 days ago] 这个问题通常是以下原因导致的:你选择了本地API配音渠道(如 F5-TTS、GPT-SoVITS、OmniVoice 等),但对应的API服务并未启动或不在运行,因此无法试听。请先确保本地API服务已正确运行并可在浏览器中访问(例如 http://127.0.0.1:7860)。你选择了 clone(克隆) 角色。clone角色需依赖原始视频中的音频作为参考,试听功能默认不支持。若使用的是 Edg...104.248* Posted at: 7 days ago
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.