Page 63 BBS.pyVideoTrans.com omnivoice配音中出现其他声音片段

#4510 omnivoice配音中出现其他声音片段...

[Last reply:2 months ago] 根据日志，“音频溢出截断”是软件在音画对齐阶段，为强制适配字幕时间轴而对配音进行裁剪导致的。这会造成配音突然停止，而“前出现其他声音片段”则可能因截断后的音频残留拼接或VAD分割不精确引起。直接原因：配音音频时长超出字幕时间轴，软件执行了强制截断（音频溢出截断 2034->1990），截断后的音频末尾可能不完整或与相邻片段重叠。解决方案（按推荐顺序尝试）：调整对齐策略：在菜单→工具/选项→...

182.84* Posted at: 2 months ago

#4509 TaskCfgSTT(is_cuda=False, uuid='c8f5627789', cache_folder='F:/win-pyvideotrans-v3.99-0508/tmp/29480/c8f5627789', target_dir='C:/Users/user/Documents/WhisperJAV/output/ja.whisperjav...

💬 1

[Last reply:2 months ago] 这是由于 Deepgram API 返回的响应中缺少有效字幕数据，导致解析时索引越界。检查音频文件：确认输入音频/视频文件未被损坏或无声，可尝试用其他播放器播放验证。检查网络与 API Key：确保网络通畅且 Deepgram API Key 有效，避免频繁请求导致限流。降低并发：在高级选项 → 字幕配音调整中将并发配音线程数设为 1，减少负载。更新到最新版本：v3.99 可能已修复该问题...

183.179* Posted at: 2 months ago

#4507 TaskCfgSTT(is_cuda=True, uuid='57ea865ef8', cache_folder='C:/Users/user/Documents/WhisperJAV/output/ja.whisperjav/win-pyvideotrans-v3.99-0508/tmp/56756/57ea865ef8', target_dir='C:/...

💬 9

[Last reply:2 months ago] rephrase 选项位于菜单 → 工具/选项 → 高级选项 → 语音识别参数区域，在界面中显示为 "LLM重新断句" 或其下的选项。请按以下步骤操作：1. 点击顶部菜单栏工具/选项；2. 选择高级选项选项卡；3. 在语音识别参数部分找到 LLM重新断句相关设置，将其设为 "不处理" 或 "默认"（对应 rephrase=0）。如果仍然看不到，可以直接关闭 “LLM重新断句” 功能...

183.179* Posted at: 2 months ago

#4508 TaskCfgTTS(is_cuda=True, uuid='48b92f8c80', cache_folder='G:/win-pyvideotrans-v3.98-317/tmp/18996/48b92f8c80', target_dir='G:/win-pyvideotrans-v3.98-317/output/tts', source_languag...

💬 1

[Last reply:2 months ago] Edge-TTS 连接超时，原因是软件无法访问微软的语音服务 speech.platform.bing.com，通常是因为在国内没有配置网络代理，或被微软限流。解决方案：配置网络代理：如果你有 VPN 或代理服务，在主界面的“网络代理地址”文本框中填入代理地址（例如 http://127.0.0.1:7890），格式参考你代理客户端的端口。降低并发并增加暂停：在菜单栏工具/选项 -> 高级...

5.83* Posted at: 2 months ago

#4506 TaskCfgSTT(is_cuda=True, uuid='702e5eac7e', cache_folder='C:/Users/user/Documents/WhisperJAV/output/ja.whisperjav/win-pyvideotrans-v3.99-0508/tmp/56756/702e5eac7e', target_dir='C:/...

💬 1

[Last reply:2 months ago] 该错误是由于 Deepgram API 返回的响应格式异常，导致在转换为 SRT 字幕时索引越界。解决方案：检查 Deepgram API 密钥是否有效且配额充足。尝试先用其他渠道（如 faster-whisper）识别同一音频，以确认音频文件本身无问题。如果音频正常，请升级 pyVideoTrans 至最新版（v3.99），或更换其他语音识别渠道。请查阅相关文档：deepgram.com 语音识...

183.179* Posted at: 2 months ago

#4505 TaskCfgSTT(is_cuda=False, uuid='818461c750', cache_folder='C:/Users/user/Documents/WhisperJAV/output/ja.whisperjav/win-pyvideotrans-v3.99-0508/tmp/56756/818461c750', target_dir='C:...

💬 1

[Last reply:2 months ago] 这是由于 Deepgram API 返回的响应中缺少有效字幕数据或格式异常，导致解析时索引越界。解决方案：检查网络与 API Key：确保能稳定访问 api.deepgram.com，且 API Key 正确有效。简化音频文件名：当前文件名包含空格、特殊符号和非英文字符（如中文、日文），可能被 Deepgram 或内部解析器视为无效。请将音频文件重命名为纯英文+数字（如 test.wav）再试。验...

183.179* Posted at: 2 months ago

#4504 TaskCfgSTT(is_cuda=False, uuid='3a494f4df7', cache_folder='C:/Users/user/Documents/WhisperJAV/output/ja.whisperjav/win-pyvideotrans-v3.99-0508/tmp/31344/3a494f4df7', target_dir='C:...

💬 1

[Last reply:2 months ago] 这是由于 Deepgram 返回的语音识别结果数据类型不匹配（deepgram_captions 库的 bug），导致时间戳比较时出现 int 与 str 类型错误。解决方案：升级软件版本：请下载最新版 pyVideoTrans（v3.99 之后可能有紧急修复补丁），覆盖安装后重试。临时更换语音识别渠道：推荐改用 faster-whisper(本地) 或 openai-whisper(本地)，效果...

183.179* Posted at: 2 months ago

#4503 AI翻译附带完整原字幕，开启这个选项能提升多少翻译质量？还有既然发送了完整原字幕，为什么不直接输出完整翻译字幕...

💬 1

[Last reply:2 months ago] 开启“AI翻译附带完整原字幕”能显著提升翻译的上下文连贯性和一致性，尤其适用于长对话、多角色或多场景的视频，避免逐句翻译导致语境断裂。具体提升程度取决于模型能力：对支持超长上下文的先进模型（如GPT-4、DeepSeek-V3），翻译结果更自然、术语更统一；对弱模型可能提升有限甚至无效，且token消耗会成倍增加，需注意费用和模型上限。至于“为什么不直接输出完整翻译字幕”：该选项的作用是为AI提供...

103.3* Posted at: 2 months ago

#4502 TaskCfgSTT(is_cuda=False, uuid='2559fa7b93', cache_folder='C:/Users/user/Documents/WhisperJAV/output/ja.whisperjav/win-pyvideotrans-v3.99-0508/tmp/31344/2559fa7b93', target_dir='C:...

💬 1

[Last reply:2 months ago] 这是由于音频文件路径或名称包含中文、空格等特殊符号，导致Deepgram API返回数据解析出错。解决方案：将输入音频文件重命名为纯英文且简短的名称（如 test.wav）。把文件移动到路径较浅且无中文、无空格的目录（如 D:\test\）。重新运行任务。如果问题依旧，请检查网络代理设置是否正确，或尝试切换至其他语音识别渠道（如 faster-whisper 本地模型）。...

183.179* Posted at: 2 months ago

#4501 ValueError: Unknown scheme for proxy URL URL('Entry%20not%20found')...

💬 1

[Last reply:2 months ago] 这是由于网络代理地址填写错误导致的。Unknown scheme for proxy URL 表示程序无法识别您填入的代理地址格式（例如填入了“Entry not found”这样的无效文本）。解决方案：清空或修正代理地址：在主界面的“网络代理地址”输入框中，确保填写的是正确的代理服务器地址，格式如 http://127.0.0.1:10809（端口号根据实际代理客户端填写）。如果不使用代理：请将...

183.179* Posted at: 2 months ago

#4500 默认设置下，是否会使用vad作为whisper或faster whisper识别的前置处理过程？还是说必须开启 Whisper预分割音频选项，才会使用silero？...

💬 3

[Last reply:2 months ago] 开启说话人识别（pyannote）不会影响断句结果。断句由 VAD 和 Whisper 模型的语音活动检测参数控制，说话人分离仅在识别完成后为每条字幕附加说话人标签，不改变字幕的时间轴和文本分割。...

103.3* Posted at: 2 months ago

#4499 aiohttp.client_exceptions.ConnectionTimeoutError: Connection timeout to host wss://speech.platform.bing.com/consumer/speech/synthesize/readaloud/edge/v1?TrustedClientToken=6A5AA1D4...

💬 1

[Last reply:2 months ago] 连接超时是因为 Edge-TTS 被微软限流或网络不通。解决方案：降低并发数：点击菜单栏工具/选项 → 高级选项 → 字幕配音调整，将 EdgeTTS 配音渠道配音并发数改为 1，将配音后暂停秒数改为 5-10 秒。检查网络代理：如果在中国大陆，请确保主界面“网络代理地址”已正确填写（如 http://127.0.0.1:7890），或尝试更换代理节点。更换配音渠道：若持续失败，建议改用 ...

114.220* Posted at: 2 months ago

#4498 GPU同时任务数设置为多少好？具体含义是什么，影响fasterwhisper单任务速度吗?...

💬 5

[Last reply:2 months ago] 开启“Whisper预分割音频”选项的主要目的是降低显存占用，尤其适用于长音频或显存不足的情况。它将长音频预先切割为短片段再送入Whisper模型，从而减少单次处理所需显存。对识别准确度：没有直接帮助，甚至可能因切断了上下文而导致准确度轻微下降（尤其是句子边界分割不当时）。但可避免因显存溢出导致的识别失败。对断句效果：有一定间接帮助。预先分割能强制将语音按静音等特征分段，配合调整“最短语音持续毫秒...

103.3* Posted at: 2 months ago

#4497 TaskCfgSTT(is_cuda=True, uuid='57da8ab8e2', cache_folder='J:/pyvideotrans-v3.99-0508/tmp/9564/57da8ab8e2', target_dir='J:/pyvideotrans-v3.99-0508/output/recogn', source_language=No...

💬 1

[Last reply:2 months ago] 这是由于GPU计算不稳定或显存不足导致的，模型输出产生了无效值（NaN）。解决方案检查CUDA/cuDNN版本：确保已安装CUDA 12.8+和cuDNN 9.11+。在CMD运行 nvcc -V 查看CUDA版本，nvidia-smi 查看驱动支持的最高CUDA版本。临时关闭CUDA加速：在主界面取消勾选“CUDA加速”，改用CPU运行，若问题消失则确认是GPU环境问题。降低显卡负载：菜单栏 →...

103.197* Posted at: 2 months ago

#4496 Permission denied: C:/Users/halba/Desktop/How to Start a Faceless YouTube Channel in 2026/_video_out/How to Start a Faceless YouTube Channel in 2026-mp4/How to Start a Faceless You...

💬 1

[Last reply:2 months ago] The error "Permission denied" indicates that pyVideoTrans cannot write to the target output directory. This is usually caused by one of the following:Path too long or contains problematic characters –...

146.241* Posted at: 2 months ago

#4495 这轮不再是“纯等待无返回”了，llm_segment 已经返回了一次断句结果：日志里出现了：[WARNING] [LLM re-segments] 重新断句结果: result=' ... '也就是说，大模型已经把一整段新的 SRT 切句结......

💬 1

[Last reply:2 months ago] 这是正常的分批处理过程。LLM 重新断句功能会将较长的字幕列表分割成多批，依次发送给大模型进行断句优化，每批处理完毕后自动发起下一批请求。当前日志显示第一批已完成并返回结果，第二批正在发送等待返回，说明程序正在按预期工作，并非卡死。您可以在菜单→工具→高级选项→通用设置中调整LLM重新断句每批字幕行数（默认20），增大该值可减少批次数但可能增加单次请求失败风险。请继续等待后续批次处理完毕即可。如长...

203.198* Posted at: 2 months ago

#4494 开了 rephrase/llm_post，断句后处理在最后一步没正常结束。faster-whisper + resegment 组合上有收尾等待问题...

💬 1

[Last reply:2 months ago] 这是LLM重新断句（rephrase）调用AI接口时卡住或未正常结束导致的。该功能需要连接AI渠道（如DeepSeek、OpenAI），若网络不稳定、API限流或提示词处理超时，最后一步会长时间等待。解决方案检查AI渠道配置：确保在菜单-翻译设置中填写了正确的API地址和Key（如DeepSeek、OpenAI），且网络代理（若需）已正确配置。降低批处理量：进入菜单-工具-高级选项，将“LLM重新...

203.198* Posted at: 2 months ago

#4493 TaskCfg(cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.92/tmp/11248/4379cefab3', target_dir='D:/_video_out/干针/What are the Differences Between Acupuncture and Dry Needli...

💬 1

[Last reply:2 months ago] 这是磁盘空间不足导致的错误。你的 D: 盘空间满了，无法继续写入临时文件或输出视频。解决方案：立即清理磁盘空间：删除 D:/BaiduNetdiskDownload/win-pyvideotrans-v3.92/tmp/ 文件夹内的所有临时文件（这些是处理过程中产生的缓存，可安全删除）。检查 D: 盘剩余空间，确保至少留有数 GB 空闲。减少临时文件体积：你的配置中启用了视频慢速（video_a...

154.85* Posted at: 2 months ago

#4492 TaskCfgSTT(is_cuda=True, uuid='abaad39e97', cache_folder='J:/软件/win-pyvideotrans-v3.99-0508/tmp/7516/abaad39e97', target_dir='J:/软件/win-pyvideotrans-v3.99-0508/output/recogn', sour...

💬 1

[Last reply:2 months ago] ZeroDivisionError: division by zero 发生在语音识别重分段阶段，通常因音频被分割出的某个片段时长为零（或时间戳异常）导致，与 VAD 参数或音频文件本身有关。解决方案调整语音识别高级参数（菜单 → 工具/选项 → 高级选项 → 语音识别参数）：将“最短语音持续毫秒”设为 2000 或 3000（避免过短片段）。将“静音分割持续毫秒”设为 500（减少误分割）。将“...

2409:8a5c* Posted at: 2 months ago

#4423 在最后嵌入视频背景声的时候怎么把视频背景声音改成自定义的...

💬 9

[Last reply:2 months ago] 软件当前不支持直接对视频进行镜像翻转操作。该软件主要用于视频翻译、字幕处理、配音合成等流程，未包含视频画面镜像或旋转功能。如果需要镜像输出，建议使用 ffmpeg 等工具对原始视频预处理，命令示例：ffmpeg -i input.mp4 -vf hflip output.mp4（水平镜像）或 vflip（垂直镜像），处理后再导入软件进行翻译。...

36.224* Posted at: 2 months ago

#4510 omnivoice配音中出现其他声音片段...

#4509 TaskCfgSTT(is_cuda=False, uuid='c8f5627789', cache_folder='F:/win-pyvideotrans-v3.99-0508/tmp/29480/c8f5627789', target_dir='C:/Users/user/Documents/WhisperJAV/output/ja.whisperjav...

#4507 TaskCfgSTT(is_cuda=True, uuid='57ea865ef8', cache_folder='C:/Users/user/Documents/WhisperJAV/output/ja.whisperjav/win-pyvideotrans-v3.99-0508/tmp/56756/57ea865ef8', target_dir='C:/...

#4508 TaskCfgTTS(is_cuda=True, uuid='48b92f8c80', cache_folder='G:/win-pyvideotrans-v3.98-317/tmp/18996/48b92f8c80', target_dir='G:/win-pyvideotrans-v3.98-317/output/tts', source_languag...

#4506 TaskCfgSTT(is_cuda=True, uuid='702e5eac7e', cache_folder='C:/Users/user/Documents/WhisperJAV/output/ja.whisperjav/win-pyvideotrans-v3.99-0508/tmp/56756/702e5eac7e', target_dir='C:/...

#4505 TaskCfgSTT(is_cuda=False, uuid='818461c750', cache_folder='C:/Users/user/Documents/WhisperJAV/output/ja.whisperjav/win-pyvideotrans-v3.99-0508/tmp/56756/818461c750', target_dir='C:...

#4504 TaskCfgSTT(is_cuda=False, uuid='3a494f4df7', cache_folder='C:/Users/user/Documents/WhisperJAV/output/ja.whisperjav/win-pyvideotrans-v3.99-0508/tmp/31344/3a494f4df7', target_dir='C:...

#4503 AI翻译附带完整原字幕，开启这个选项能提升多少翻译质量？还有既然发送了完整原字幕，为什么不直接输出完整翻译字幕...

#4502 TaskCfgSTT(is_cuda=False, uuid='2559fa7b93', cache_folder='C:/Users/user/Documents/WhisperJAV/output/ja.whisperjav/win-pyvideotrans-v3.99-0508/tmp/31344/2559fa7b93', target_dir='C:...

#4501 ValueError: Unknown scheme for proxy URL URL('Entry%20not%20found')...

#4500 默认设置下，是否会使用vad作为whisper或faster whisper识别的前置处理过程？还是说必须开启 Whisper预分割音频 选项，才会使用silero？...

#4499 aiohttp.client_exceptions.ConnectionTimeoutError: Connection timeout to host wss://speech.platform.bing.com/consumer/speech/synthesize/readaloud/edge/v1?TrustedClientToken=6A5AA1D4...

#4498 GPU同时任务数设置为多少好？具体含义是什么，影响fasterwhisper单任务速度吗?...

#4497 TaskCfgSTT(is_cuda=True, uuid='57da8ab8e2', cache_folder='J:/pyvideotrans-v3.99-0508/tmp/9564/57da8ab8e2', target_dir='J:/pyvideotrans-v3.99-0508/output/recogn', source_language=No...

#4496 Permission denied: C:/Users/halba/Desktop/How to Start a Faceless YouTube Channel in 2026/_video_out/How to Start a Faceless YouTube Channel in 2026-mp4/How to Start a Faceless You...

#4495 这轮不再是“纯等待无返回”了，llm_segment 已经返回了一次断句结果：日志里出现了：[WARNING] [LLM re-segments] 重新断句结果: result=' ... '也就是说，大模型已经把一整段新的 SRT 切句结......

#4494 开了 rephrase/llm_post，断句后处理在最后一步没正常结束。faster-whisper + resegment 组合上有收尾等待问题...

#4493 TaskCfg(cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.92/tmp/11248/4379cefab3', target_dir='D:/_video_out/干针/What are the Differences Between Acupuncture and Dry Needli...

#4492 TaskCfgSTT(is_cuda=True, uuid='abaad39e97', cache_folder='J:/软件/win-pyvideotrans-v3.99-0508/tmp/7516/abaad39e97', target_dir='J:/软件/win-pyvideotrans-v3.99-0508/output/recogn', sour...

#4423 在最后嵌入视频背景声的时候怎么把视频背景声音改成自定义的...

Related resource

#4500 默认设置下，是否会使用vad作为whisper或faster whisper识别的前置处理过程？还是说必须开启 Whisper预分割音频选项，才会使用silero？...