#4935 在翻译15分钟的视频时，使用indextts2本地，会启用配音加速和视频慢速，最终结果的16分钟视频中，最后已跟踪会失去声音

129.128* Posted at: 1 month ago

[WARNING] [Audio-Sync] 瀛楀箷[502] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2394ms
[WARNING] [Audio-Sync] 瀛楀箷[502] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2394ms
[DEBUG] [Audio-Sync] Line=502 | 鍖归厤 | [current_slot_audio_len=2394 slot_duration=2394] | Timeline: 1135421 -> 1137815
[WARNING] [Audio-Sync] 瀛楀箷[503] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1628ms
[WARNING] [Audio-Sync] 瀛楀箷[503] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1628ms
[DEBUG] [Audio-Sync] Line=503 | 鍖归厤 | [current_slot_audio_len=1628 slot_duration=1628] | Timeline: 1137815 -> 1139443
[WARNING] [Audio-Sync] 瀛楀箷[504] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2421ms
[WARNING] [Audio-Sync] 瀛楀箷[504] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2421ms
[DEBUG] [Audio-Sync] Line=504 | 鍖归厤 | [current_slot_audio_len=2421 slot_duration=2421] | Timeline: 1139443 -> 1141864
[WARNING] [Audio-Sync] 瀛楀箷[505] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2405ms
[WARNING] [Audio-Sync] 瀛楀箷[505] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2405ms
[DEBUG] [Audio-Sync] Line=505 | 鍖归厤 | [current_slot_audio_len=2405 slot_duration=2405] | Timeline: 1141864 -> 11442
......
o-Sync] 瀛楀箷[508] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1946ms
[DEBUG] [Audio-Sync] Line=508 | 鍖归厤 | [current_slot_audio_len=1946 slot_duration=1946] | Timeline: 1149092 -> 1151038
[WARNING] [Audio-Sync] 瀛楀箷[509] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1810ms
[WARNING] [Audio-Sync] 瀛楀箷[509] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1810ms
[DEBUG] [Audio-Sync] Line=509 | 鍖归厤 | [current_slot_audio_len=1810 slot_duration=1810] | Timeline: 1151038 -> 1152848
[WARNING] [Audio-Sync] 瀛楀箷[510] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2437ms
[WARNING] [Audio-Sync] 瀛楀箷[510] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2437ms
[DEBUG] [Audio-Sync] Line=510 | 鍖归厤 | [current_slot_audio_len=2437 slot_duration=2437] | Timeline: 1152848 -> 1155285
[WARNING] [Audio-Sync] 瀛楀箷[511] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1505ms
[WARNING] [Audio-Sync] 瀛楀箷[511] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1505ms
[DEBUG] [Audio-Sync] Line=511 | 鍖归厤 | [current_slot_audio_len=1505 slot_duration=1505] | Timeline: 1155285 -> 1156790
[WARNING] [Audio-Sync] 瀛楀箷[512] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2171ms
[WARNING] [Audio-Sync] 瀛楀箷[512] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2171ms
[DEBUG] [Audio-Sync] Line=512 | 鍖归厤 | [current_slot_audio_len=2171 slot_duration=2171] | Timeline: 1156790 -> 1158961
[WARNING] [Audio-Sync] 瀛楀箷[513] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2036ms
[WARNING] [Audio-Sync] 瀛楀箷[513] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2036ms
[DEBUG] [Audio-Sync] Line=513 | 鍖归厤 | [current_slot_audio_len=2036 slot_duration=2036] | Timeline: 1158961 -> 1160997
[WARNING] [Audio-Sync] 瀛楀箷[514] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2024ms
[WARNING] [Audio-Sync] 瀛楀箷[514] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2024ms
[DEBUG] [Audio-Sync] Line=514 | 鍖归厤 | [current_slot_audio_len=2024 slot_duration=2024] | Timeline: 1160997 -> 1163021
[WARNING] [Audio-Sync] 瀛楀箷[515] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 965ms
[WARNING] [Audio-Sync] 瀛楀箷[515] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 965ms
[DEBUG] [Audio-Sync] Line=515 | 鍖归厤 | [current_slot_audio_len=965 slot_duration=965] | Timeline: 1163021 -> 1163986
[WARNING] [Audio-Sync] 瀛楀箷[516] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1193ms
[WARNING] [Audio-Sync] 瀛楀箷[516] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1193ms
[DEBUG] [Audio-Sync] Line=516 | 鍖归厤 | [current_slot_audio_len=1193 slot_duration=1193] | Timeline: 1163986 -> 1165179
[WARNING] [Audio-Sync] 瀛楀箷[517] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1871ms
[WARNING] [Audio-Sync] 瀛楀箷[517] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1871ms
[DEBUG] [Audio-Sync] Line=517 | 鍖归厤 | [current_slot_audio_len=1871 slot_duration=1871] | Timeline: 1165179 -> 1167050
[WARNING] [Audio-Sync] 瀛楀箷[518] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 3777ms
[WARNING] [Audio-Sync] 瀛楀箷[518] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 3777ms
[DEBUG] [Audio-Sync] Line=518 | 鍖归厤 | [current_slot_audio_len=3777 slot_duration=3777] | Timeline: 1167050 -> 1170827
[WARNING] [Audio-Sync] 瀛楀箷[519] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: -265392ms
[WARNING] [Audio-Sync] 瀛楀箷[519] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: -265392ms
[DEBUG] [Audio-Sync] Line=519 | 闊抽鏈熬琛ラ潤闊?1ms | [current_slot_audio_len=0 slot_duration=1] | Timeline: 1170827 -> 1170828
[DEBUG] concat_txt='E:/pyvideotrans/tmp/129808/56f2359739/final_audio_concat.txt',filelist[0]='E:/pyvideotrans/tmp/129808/56f2359739/dubb-0.wav'
[DEBUG] [Audio-Concat] 鏈€缁堥煶棰戝凡鐢熸垚: E:/pyvideotrans/tmp/129808/56f2359739/target.wav
[DEBUG] [FFMPEG-CMD]:
ffmpeg -hide_banner -nostdin -ignore_unknown -threads 0 -y -i novoice.mp4 -vf tpad=stop_mode=clone:stop_duration=60.738 -c:v libx264 -crf 23 -preset medium -an final_video_with_freeze_lastend.mp4

[DEBUG] 瑙嗛瀹氭牸搴斿欢闀?0738ms锛屽疄闄呭悜涓婂彇鏁寸寤堕暱60.738s,鎿嶄綔鎴愬姛銆?
[DEBUG] [鏈€缁堣棰戝悎鎴怾copy妯″紡锛屾棤闇€閲嶆柊缂栫爜:
['-y', '-progress', 'compose1780528244.9989538.txt', '-i', 'novoice.mp4', '-i', 'origin_audio.m4a', '-map', '0:v', '-map', '1:a', '-c:v', 'copy', '-c:a', 'copy', '-movflags', '+faststart', '-fps_mode', 'vfr', '-t', '966.566000', 'laste_target.mp4']
[DEBUG] [FFMPEG-CMD]:
ffmpeg -hide_banner -nostdin -ignore_unknown -threads 0 -y -progress compose1780528244.9989538.txt -i novoice.mp4 -i origin_audio.m4a -map 0:v -map 1:a -c:v copy -c:a copy -movflags +faststart -fps_mode vfr -t 966.566000 laste_target.mp4

3 Replies

Floor #1 DeepSeek reply at 1 month ago

核心原因：音画同步阶段（Audio-Sync）某条字幕（第519条）的时长被计算为负数（-265秒），导致后续配音音频被完全丢弃，最终合成时回退到原始音频（origin_audio.m4a），造成最后一段无声。

解决方案（按优先顺序尝试）

关闭音频加速和视频慢速
在 设置更多参数 中，取消勾选 “音频加速” 和 “视频慢速”，只勾选 “对齐字幕声音”。这能避免因时长调整逻辑产生负数。
调整 Index-TTS 适配参数
- 打开 菜单→工具→高级选项→语音识别参数
- 将 最短语音持续毫秒 设为 3000（参考音频最低要求）
- 将 最长语音持续秒数 设为 10（不超过10秒，防止超长片段被 Index-TTS 截断）
- 勾选 Whisper预分割音频 和 合并过短字幕到相邻（确保每条字幕时长落在 3-10s 内）
单视频模式逐段检查
- 每次只选择 1个视频 进行翻译，这样在配音完成后会弹出编辑框，可手动查看每条字幕的配音时长是否正常。
- 若发现某条字幕配音时长为 0 或负数，可单独重新生成该片段。
检查 Index-TTS 配音是否全成功
- 查看日志中是否有 [ERROR] 或 dubbing failed 字样。如果某条字幕的配音失败（空白音频），会导致时长计算异常。
- 若频繁失败，可先试听 Index-TTS 角色，或在 菜单→TTS设置→Index-TTS 中更换模型/API地址。
简化文件路径
确保视频存放路径无中文、空格、特殊符号，总字符数不超过200，例如 D:\videos\short_name.mp4。

请查阅相关文档：

F5-TTS/Index-TTS 配音常见错误（Index-TTS 设置）
视频翻译中的音画同步对齐（时长负数原因）
原声克隆与多角色配音（参考音频时长要求）

Floor #2 129.128* reply at 1 month ago

调整字幕后没有缺失时间，但语速起伏不正常，听感怪异。使用indextts2本地，启用配音加速和视频慢速

Floor #3 DeepSeek reply at 1 month ago

核心原因：开启“音频加速”和“视频慢速”后，软件为匹配不同片段的时长差异，对每个片段独立计算加速/慢放倍数，导致片段间的语速跳跃、时快时慢，听感极不自然。手动调整字幕时间轴后，原始时长与配音时长之间的差距被进一步放大，加剧了这一现象。以下是具体解决方案。

关闭“音频加速”和“视频慢速”
在主界面中取消勾选 音频加速 和 视频慢速，仅保留 对齐字幕声音。这样软件会维持配音原有速度，仅通过裁剪字幕间隙静音来对齐时间轴，语速将稳定。
若仍需基本对齐，限制加速/慢放倍数
打开 菜单→工具→高级选项→字幕声音画面对齐，将 音频加速最大倍数 设为 2（或更低），视频慢放最大倍数 设为 1.5（最高不超过 10），防止极端倍数导致怪异效果。
优化 Index-TTS 参考音频时长
使用 clone 角色时，必须确保每条字幕对应的原始音频片段在 3~10 秒 之间。
- 在 菜单→工具→高级选项→语音识别参数 中，将 最短语音持续毫秒 设为 3000，最长语音持续秒数 设为 10。
- 勾选 Whisper预分割音频 和 合并过短字幕到相邻。
  如果手动调整字幕导致某条字幕时长超出该范围，请合并或拆分字幕。
单视频交互模式逐条检查
每次只翻译 1 个视频，配音阶段完成后会弹出编辑框。可在此：
- 查看每条字幕的配音实际时长。
- 若某条配语音质差或语速异常，点击该条右侧的“重新配音”按钮，手动替换为更合适的配音角色或重新生成。
检查 Index-TTS 是否出现静音/失败
若某条字幕配音完全失败（生成静音文件），软件可能误以为该片段时长为 0，从而用极端倍数补偿。查看日志中是否有 dubbing failed 或 Error 字样。若有，请在 菜单→TTS设置→Index-TTS 中更换模型或 API 地址，并确保参考音频文件（f5-tts/ 目录内）格式为 .wav 且时长合规。

请查阅相关文档：