#4935 在翻译15分钟的视频时,使用indextts2本地,会启用配音加速和视频慢速,最终结果的16分钟视频中,最后已跟踪会失去声音

129.128* Posted at: 4 hours ago

[WARNING] [Audio-Sync] 瀛楀箷[502] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2394ms
[WARNING] [Audio-Sync] 瀛楀箷[502] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2394ms
[DEBUG] [Audio-Sync] Line=502 | 鍖归厤 | [current_slot_audio_len=2394 slot_duration=2394] | Timeline: 1135421 -> 1137815
[WARNING] [Audio-Sync] 瀛楀箷[503] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1628ms
[WARNING] [Audio-Sync] 瀛楀箷[503] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1628ms
[DEBUG] [Audio-Sync] Line=503 | 鍖归厤 | [current_slot_audio_len=1628 slot_duration=1628] | Timeline: 1137815 -> 1139443
[WARNING] [Audio-Sync] 瀛楀箷[504] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2421ms
[WARNING] [Audio-Sync] 瀛楀箷[504] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2421ms
[DEBUG] [Audio-Sync] Line=504 | 鍖归厤 | [current_slot_audio_len=2421 slot_duration=2421] | Timeline: 1139443 -> 1141864
[WARNING] [Audio-Sync] 瀛楀箷[505] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2405ms
[WARNING] [Audio-Sync] 瀛楀箷[505] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2405ms
[DEBUG] [Audio-Sync] Line=505 | 鍖归厤 | [current_slot_audio_len=2405 slot_duration=2405] | Timeline: 1141864 -> 11442
......
o-Sync] 瀛楀箷[508] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1946ms
[DEBUG] [Audio-Sync] Line=508 | 鍖归厤 | [current_slot_audio_len=1946 slot_duration=1946] | Timeline: 1149092 -> 1151038
[WARNING] [Audio-Sync] 瀛楀箷[509] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1810ms
[WARNING] [Audio-Sync] 瀛楀箷[509] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1810ms
[DEBUG] [Audio-Sync] Line=509 | 鍖归厤 | [current_slot_audio_len=1810 slot_duration=1810] | Timeline: 1151038 -> 1152848
[WARNING] [Audio-Sync] 瀛楀箷[510] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2437ms
[WARNING] [Audio-Sync] 瀛楀箷[510] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2437ms
[DEBUG] [Audio-Sync] Line=510 | 鍖归厤 | [current_slot_audio_len=2437 slot_duration=2437] | Timeline: 1152848 -> 1155285
[WARNING] [Audio-Sync] 瀛楀箷[511] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1505ms
[WARNING] [Audio-Sync] 瀛楀箷[511] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1505ms
[DEBUG] [Audio-Sync] Line=511 | 鍖归厤 | [current_slot_audio_len=1505 slot_duration=1505] | Timeline: 1155285 -> 1156790
[WARNING] [Audio-Sync] 瀛楀箷[512] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2171ms
[WARNING] [Audio-Sync] 瀛楀箷[512] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2171ms
[DEBUG] [Audio-Sync] Line=512 | 鍖归厤 | [current_slot_audio_len=2171 slot_duration=2171] | Timeline: 1156790 -> 1158961
[WARNING] [Audio-Sync] 瀛楀箷[513] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2036ms
[WARNING] [Audio-Sync] 瀛楀箷[513] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2036ms
[DEBUG] [Audio-Sync] Line=513 | 鍖归厤 | [current_slot_audio_len=2036 slot_duration=2036] | Timeline: 1158961 -> 1160997
[WARNING] [Audio-Sync] 瀛楀箷[514] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2024ms
[WARNING] [Audio-Sync] 瀛楀箷[514] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 2024ms
[DEBUG] [Audio-Sync] Line=514 | 鍖归厤 | [current_slot_audio_len=2024 slot_duration=2024] | Timeline: 1160997 -> 1163021
[WARNING] [Audio-Sync] 瀛楀箷[515] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 965ms
[WARNING] [Audio-Sync] 瀛楀箷[515] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 965ms
[DEBUG] [Audio-Sync] Line=515 | 鍖归厤 | [current_slot_audio_len=965 slot_duration=965] | Timeline: 1163021 -> 1163986
[WARNING] [Audio-Sync] 瀛楀箷[516] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1193ms
[WARNING] [Audio-Sync] 瀛楀箷[516] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1193ms
[DEBUG] [Audio-Sync] Line=516 | 鍖归厤 | [current_slot_audio_len=1193 slot_duration=1193] | Timeline: 1163986 -> 1165179
[WARNING] [Audio-Sync] 瀛楀箷[517] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1871ms
[WARNING] [Audio-Sync] 瀛楀箷[517] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 1871ms
[DEBUG] [Audio-Sync] Line=517 | 鍖归厤 | [current_slot_audio_len=1871 slot_duration=1871] | Timeline: 1165179 -> 1167050
[WARNING] [Audio-Sync] 瀛楀箷[518] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 3777ms
[WARNING] [Audio-Sync] 瀛楀箷[518] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: 3777ms
[DEBUG] [Audio-Sync] Line=518 | 鍖归厤 | [current_slot_audio_len=3777 slot_duration=3777] | Timeline: 1167050 -> 1170827
[WARNING] [Audio-Sync] 瀛楀箷[519] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: -265392ms
[WARNING] [Audio-Sync] 瀛楀箷[519] 瑙嗛妲芥椂闀夸负0锛屽洖閫€浣跨敤鍘熷鏃堕暱: -265392ms
[DEBUG] [Audio-Sync] Line=519 | 闊抽鏈熬琛ラ潤闊?1ms | [current_slot_audio_len=0 slot_duration=1] | Timeline: 1170827 -> 1170828
[DEBUG] concat_txt='E:/pyvideotrans/tmp/129808/56f2359739/final_audio_concat.txt',filelist[0]='E:/pyvideotrans/tmp/129808/56f2359739/dubb-0.wav'
[DEBUG] [Audio-Concat] 鏈€缁堥煶棰戝凡鐢熸垚: E:/pyvideotrans/tmp/129808/56f2359739/target.wav
[DEBUG] [FFMPEG-CMD]:
ffmpeg -hide_banner -nostdin -ignore_unknown -threads 0 -y -i novoice.mp4 -vf tpad=stop_mode=clone:stop_duration=60.738 -c:v libx264 -crf 23 -preset medium -an final_video_with_freeze_lastend.mp4

[DEBUG] 瑙嗛瀹氭牸搴斿欢闀?0738ms锛屽疄闄呭悜涓婂彇鏁寸寤堕暱60.738s,鎿嶄綔鎴愬姛銆?
[DEBUG] [鏈€缁堣棰戝悎鎴怾copy妯″紡锛屾棤闇€閲嶆柊缂栫爜:
['-y', '-progress', 'compose1780528244.9989538.txt', '-i', 'novoice.mp4', '-i', 'origin_audio.m4a', '-map', '0:v', '-map', '1:a', '-c:v', 'copy', '-c:a', 'copy', '-movflags', '+faststart', '-fps_mode', 'vfr', '-t', '966.566000', 'laste_target.mp4']
[DEBUG] [FFMPEG-CMD]:
ffmpeg -hide_banner -nostdin -ignore_unknown -threads 0 -y -progress compose1780528244.9989538.txt -i novoice.mp4 -i origin_audio.m4a -map 0:v -map 1:a -c:v copy -c:a copy -movflags +faststart -fps_mode vfr -t 966.566000 laste_target.mp4

3 Replies

核心原因:音画同步阶段(Audio-Sync)某条字幕(第519条)的时长被计算为负数(-265秒),导致后续配音音频被完全丢弃,最终合成时回退到原始音频(origin_audio.m4a),造成最后一段无声。


解决方案(按优先顺序尝试)

  1. 关闭音频加速和视频慢速
    设置更多参数 中,取消勾选 “音频加速” 和 “视频慢速”,只勾选 “对齐字幕声音”。这能避免因时长调整逻辑产生负数。
  2. 调整 Index-TTS 适配参数

    • 打开 菜单→工具→高级选项→语音识别参数
    • 最短语音持续毫秒 设为 3000(参考音频最低要求)
    • 最长语音持续秒数 设为 10(不超过10秒,防止超长片段被 Index-TTS 截断)
    • 勾选 Whisper预分割音频合并过短字幕到相邻(确保每条字幕时长落在 3-10s 内)
  3. 单视频模式逐段检查

    • 每次只选择 1个视频 进行翻译,这样在配音完成后会弹出编辑框,可手动查看每条字幕的配音时长是否正常。
    • 若发现某条字幕配音时长为 0 或负数,可单独重新生成该片段。
  4. 检查 Index-TTS 配音是否全成功

    • 查看日志中是否有 [ERROR]dubbing failed 字样。如果某条字幕的配音失败(空白音频),会导致时长计算异常。
    • 若频繁失败,可先试听 Index-TTS 角色,或在 菜单→TTS设置→Index-TTS 中更换模型/API地址。
  5. 简化文件路径
    确保视频存放路径无中文、空格、特殊符号,总字符数不超过200,例如 D:\videos\short_name.mp4

请查阅相关文档:

调整字幕后没有缺失时间,但语速起伏不正常,听感怪异。使用indextts2本地,启用配音加速和视频慢速

核心原因:开启“音频加速”和“视频慢速”后,软件为匹配不同片段的时长差异,对每个片段独立计算加速/慢放倍数,导致片段间的语速跳跃、时快时慢,听感极不自然。手动调整字幕时间轴后,原始时长与配音时长之间的差距被进一步放大,加剧了这一现象。以下是具体解决方案。

  1. 关闭“音频加速”和“视频慢速”
    在主界面中取消勾选 音频加速视频慢速,仅保留 对齐字幕声音。这样软件会维持配音原有速度,仅通过裁剪字幕间隙静音来对齐时间轴,语速将稳定。
  2. 若仍需基本对齐,限制加速/慢放倍数
    打开 菜单→工具→高级选项→字幕声音画面对齐,将 音频加速最大倍数 设为 2(或更低),视频慢放最大倍数 设为 1.5(最高不超过 10),防止极端倍数导致怪异效果。
  3. 优化 Index-TTS 参考音频时长
    使用 clone 角色时,必须确保每条字幕对应的原始音频片段在 3~10 秒 之间。

    • 菜单→工具→高级选项→语音识别参数 中,将 最短语音持续毫秒 设为 3000最长语音持续秒数 设为 10
    • 勾选 Whisper预分割音频合并过短字幕到相邻
      如果手动调整字幕导致某条字幕时长超出该范围,请合并或拆分字幕。
  4. 单视频交互模式逐条检查
    每次只翻译 1 个视频,配音阶段完成后会弹出编辑框。可在此:

    • 查看每条字幕的配音实际时长。
    • 若某条配语音质差或语速异常,点击该条右侧的“重新配音”按钮,手动替换为更合适的配音角色或重新生成。
  5. 检查 Index-TTS 是否出现静音/失败
    若某条字幕配音完全失败(生成静音文件),软件可能误以为该片段时长为 0,从而用极端倍数补偿。查看日志中是否有 dubbing failedError 字样。若有,请在 菜单→TTS设置→Index-TTS 中更换模型或 API 地址,并确保参考音频文件(f5-tts/ 目录内)格式为 .wav 且时长合规。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update. Dondate: ko-fi.com/jianchang512

Related resource