#4967 视频翻译存在明显间隔,导致不连贯。并且存在最后一分钟无声音

129.128* Posted at: 1 day ago

[DEBUG] [Audio-Sync] Line=488 | 匹配 | [current_slot_audio_len=2466 slot_duration=2466] | Timeline: 1108517 -> 1110983
[WARNING] [Audio-Sync] 字幕[489] 视频槽时长为0,回退使用原始时长: 2133ms
[WARNING] [Audio-Sync] 字幕[489] 视频槽时长为0,回退使用原始时长: 2133ms
[DEBUG] [Audio-Sync] Line=489 | 匹配 | [current_slot_audio_len=2133 slot_duration=2133] | Timeline: 1110983 -> 1113116
[WARNING] [Audio-Sync] 字幕[490] 视频槽时长为0,回退使用原始时长: 2872ms
[WARNING] [Audio-Sync] 字幕[490] 视频槽时长为0,回退使用原始时长: 2872ms
[DEBUG] [Audio-Sync] Line=490 | 匹配 | [current_slot_audio_len=2872 slot_duration=2872] | Timeline: 1113116 -> 1115988
[WARNING] [Audio-Sync] 字幕[491] 视频槽时长为0,回退使用原始时长: 1587ms
[WARNING] [Audio-Sync] 字幕[491] 视频槽时长为0,回退使用原始时长: 1587ms
[DEBUG] [Audio-Sync] Line=491 | 匹配 | [current_slot_audio_len=1587 slot_duration=1587] | Timeline: 1115988 -> 1117575
[WARNING] [Audio-Sync] 字幕[492] 视频槽时长为0,回退使用原始时长: 2066ms
[WARNING] [Audio-Sync] 字幕[492] 视频槽时长为0,回退使用原始时长: 2066ms
[DEBUG] [Audio-Sync] Line=492 | 匹配 | [current_slot_audio_len=2066 slot_d
......
| Timeline: 1138414 -> 1140991
[WARNING] [Audio-Sync] 字幕[502] 视频槽时长为0,回退使用原始时长: 2750ms
[WARNING] [Audio-Sync] 字幕[502] 视频槽时长为0,回退使用原始时长: 2750ms
[DEBUG] [Audio-Sync] Line=502 | 匹配 | [current_slot_audio_len=2750 slot_duration=2750] | Timeline: 1140991 -> 1143741
[WARNING] [Audio-Sync] 字幕[503] 视频槽时长为0,回退使用原始时长: 1427ms
[WARNING] [Audio-Sync] 字幕[503] 视频槽时长为0,回退使用原始时长: 1427ms
[DEBUG] [Audio-Sync] Line=503 | 匹配 | [current_slot_audio_len=1427 slot_duration=1427] | Timeline: 1143741 -> 1145168
[WARNING] [Audio-Sync] 字幕[504] 视频槽时长为0,回退使用原始时长: 1566ms
[WARNING] [Audio-Sync] 字幕[504] 视频槽时长为0,回退使用原始时长: 1566ms
[DEBUG] [Audio-Sync] Line=504 | 匹配 | [current_slot_audio_len=1566 slot_duration=1566] | Timeline: 1145168 -> 1146734
[WARNING] [Audio-Sync] 字幕[505] 视频槽时长为0,回退使用原始时长: 1766ms
[WARNING] [Audio-Sync] 字幕[505] 视频槽时长为0,回退使用原始时长: 1766ms
[DEBUG] [Audio-Sync] Line=505 | 匹配 | [current_slot_audio_len=1766 slot_duration=1766] | Timeline: 1146734 -> 1148500
[WARNING] [Audio-Sync] 字幕[506] 视频槽时长为0,回退使用原始时长: 2363ms
[WARNING] [Audio-Sync] 字幕[506] 视频槽时长为0,回退使用原始时长: 2363ms
[DEBUG] [Audio-Sync] Line=506 | 匹配 | [current_slot_audio_len=2363 slot_duration=2363] | Timeline: 1148500 -> 1150863
[WARNING] [Audio-Sync] 字幕[507] 视频槽时长为0,回退使用原始时长: 2060ms
[WARNING] [Audio-Sync] 字幕[507] 视频槽时长为0,回退使用原始时长: 2060ms
[DEBUG] [Audio-Sync] Line=507 | 匹配 | [current_slot_audio_len=2060 slot_duration=2060] | Timeline: 1150863 -> 1152923
[WARNING] [Audio-Sync] 字幕[508] 视频槽时长为0,回退使用原始时长: 1500ms
[WARNING] [Audio-Sync] 字幕[508] 视频槽时长为0,回退使用原始时长: 1500ms
[DEBUG] [Audio-Sync] Line=508 | 匹配 | [current_slot_audio_len=1500 slot_duration=1500] | Timeline: 1152923 -> 1154423
[WARNING] [Audio-Sync] 字幕[509] 视频槽时长为0,回退使用原始时长: 2653ms
[WARNING] [Audio-Sync] 字幕[509] 视频槽时长为0,回退使用原始时长: 2653ms
[DEBUG] [Audio-Sync] Line=509 | 匹配 | [current_slot_audio_len=2653 slot_duration=2653] | Timeline: 1154423 -> 1157076
[WARNING] [Audio-Sync] 字幕[510] 视频槽时长为0,回退使用原始时长: 2134ms
[WARNING] [Audio-Sync] 字幕[510] 视频槽时长为0,回退使用原始时长: 2134ms
[DEBUG] [Audio-Sync] Line=510 | 匹配 | [current_slot_audio_len=2134 slot_duration=2134] | Timeline: 1157076 -> 1159210
[WARNING] [Audio-Sync] 字幕[511] 视频槽时长为0,回退使用原始时长: 1933ms
[WARNING] [Audio-Sync] 字幕[511] 视频槽时长为0,回退使用原始时长: 1933ms
[DEBUG] [Audio-Sync] Line=511 | 匹配 | [current_slot_audio_len=1933 slot_duration=1933] | Timeline: 1159210 -> 1161143
[WARNING] [Audio-Sync] 字幕[512] 视频槽时长为0,回退使用原始时长: 2033ms
[WARNING] [Audio-Sync] 字幕[512] 视频槽时长为0,回退使用原始时长: 2033ms
[DEBUG] [Audio-Sync] Line=512 | 匹配 | [current_slot_audio_len=2033 slot_duration=2033] | Timeline: 1161143 -> 1163176
[WARNING] [Audio-Sync] 字幕[513] 视频槽时长为0,回退使用原始时长: 2566ms
[WARNING] [Audio-Sync] 字幕[513] 视频槽时长为0,回退使用原始时长: 2566ms
[DEBUG] [Audio-Sync] Line=513 | 匹配 | [current_slot_audio_len=2566 slot_duration=2566] | Timeline: 1163176 -> 1165742
[WARNING] [Audio-Sync] 字幕[514] 视频槽时长为0,回退使用原始时长: 2033ms
[WARNING] [Audio-Sync] 字幕[514] 视频槽时长为0,回退使用原始时长: 2033ms
[DEBUG] [Audio-Sync] Line=514 | 匹配 | [current_slot_audio_len=2033 slot_duration=2033] | Timeline: 1165742 -> 1167775
[WARNING] [Audio-Sync] 字幕[515] 视频槽时长为0,回退使用原始时长: 1333ms
[WARNING] [Audio-Sync] 字幕[515] 视频槽时长为0,回退使用原始时长: 1333ms
[DEBUG] [Audio-Sync] Line=515 | 匹配 | [current_slot_audio_len=1333 slot_duration=1333] | Timeline: 1167775 -> 1169108
[WARNING] [Audio-Sync] 字幕[516] 视频槽时长为0,回退使用原始时长: 1366ms
[WARNING] [Audio-Sync] 字幕[516] 视频槽时长为0,回退使用原始时长: 1366ms
[DEBUG] [Audio-Sync] Line=516 | 匹配 | [current_slot_audio_len=1366 slot_duration=1366] | Timeline: 1169108 -> 1170474
[WARNING] [Audio-Sync] 字幕[517] 视频槽时长为0,回退使用原始时长: -204685ms
[WARNING] [Audio-Sync] 字幕[517] 视频槽时长为0,回退使用原始时长: -204685ms
[DEBUG] [Audio-Sync] Line=517 | 音频末尾补静音 1ms | [current_slot_audio_len=0 slot_duration=1] | Timeline: 1170474 -> 1170475
[DEBUG] concat_txt='E:/pyvideotrans/tmp/105452/586fc2d8ad/final_audio_concat.txt',filelist[0]='E:/pyvideotrans/tmp/105452/586fc2d8ad/final_slot_cut_0.wav'
[DEBUG] [Audio-Concat] 最终音频已生成: E:/pyvideotrans/tmp/105452/586fc2d8ad/target.wav
[DEBUG]

7 Replies

视频翻译中出现明显间隔、最后一分钟无声,根源在于音画对齐时的 字幕时间轴异常。日志显示字幕[517]的时长计算为负值(-204685ms),导致对齐引擎无法正确匹配视频槽位,最终合成时末尾音频被强制充填补静音。

解决方案:

  1. 检查并简化视频文件路径:确保视频文件名和所在路径只包含英文、数字、下划线或短横线,不要有中文、空格、表情符号,且路径层级不要太深。例如将视频移到 D:\videos\short.mp4
  2. 暂时禁用“视频慢速”:在“设置更多参数”中,取消勾选“视频慢速”,仅保留“音频加速”或两者都不选。这可以避免因慢速处理对视频片段切割时导致的异常。
  3. 清理缓存后重试:勾选主界面左上角 “清理已生成”,然后重新执行翻译。这会清除旧的临时文件和异常的中断状态。
  4. 单视频模式下手动校对字幕:如果只翻译一个视频,在语音识别和翻译完成后会弹出编辑窗口。请重点检查最后几条字幕的时间轴是否合理,手动修正异常时间(如负时长、过长时间等)。
  5. 检查原始视频:确认视频本身是否有损坏或音轨结尾异常。可以用播放器拖到最后几分钟,听一下原视频是否有声音。

如果以上步骤仍无法解决,请提供 logs/ 文件夹中最新的完整日志文件,以便进一步定位。

DEBUG] [Audio-Sync] Line=1 | 音频溢出截断 2540->2538 | [current_slot_audio_len=2540 slot_duration=2538] | Timeline: 0 -> 2538
[DEBUG] [Audio-Sync] Line=2 | 音频溢出截断 2631->2609 | [current_slot_audio_len=2631 slot_duration=2609] | Timeline: 2538 -> 5147
[DEBUG] [Audio-Sync] Line=3 | 音频溢出截断 1528->1487 | [current_slot_audio_len=1528 slot_duration=1487] | Timeline: 5147 -> 6634
[DEBUG] [Audio-Sync] Line=4 | 音频溢出截断 2296->2276 | [current_slot_audio_len=2296 slot_duration=2276] | Timeline: 6634 -> 8910
[DEBUG] [Audio-Sync] Line=5 | 音频末尾补静音 243ms | [current_slot_audio_len=2390 slot_duration=2633] | Timeline: 8910 -> 11543
[DEBUG] [Audio-Sync] Line=6 | 音频末尾补静音 51ms | [current_slot_audio_len=1782 slot_duration=1833] | Timeline: 11543 -> 13376
[DEBUG] [Audio-Sync] Line=7 | 音频末尾补静音 76ms | [current_slot_audio_len=1524 slot_duration=1600] | Timeline: 13376 -> 14976
[DEBUG] [Audio-Sync] Line=8 | 音频溢出截断 2166->2130 | [current_slot_audio_len=2166 slot_duration=2130] | Timeline: 14976 -> 17106
[DEBUG] [Au
......
50] | Timeline: 340375 -> 342925
[DEBUG] [Audio-Sync] Line=149 | 音频溢出截断 1601->1557 | [current_slot_audio_len=1601 slot_duration=1557] | Timeline: 342925 -> 344482
[DEBUG] [Audio-Sync] Line=150 | 音频末尾补静音 1732ms | [current_slot_audio_len=2868 slot_duration=4600] | Timeline: 344482 -> 349082
[DEBUG] [Audio-Sync] Line=151 | 音频溢出截断 2252->2217 | [current_slot_audio_len=2252 slot_duration=2217] | Timeline: 349082 -> 351299
[DEBUG] [Audio-Sync] Line=152 | 音频溢出截断 3073->3036 | [current_slot_audio_len=3073 slot_duration=3036] | Timeline: 351299 -> 354335
[DEBUG] [Audio-Sync] Line=153 | 音频末尾补静音 31ms | [current_slot_audio_len=1302 slot_duration=1333] | Timeline: 354335 -> 355668
[DEBUG] [Audio-Sync] Line=154 | 音频溢出截断 2411->2384 | [current_slot_audio_len=2411 slot_duration=2384] | Timeline: 355668 -> 358052
[DEBUG] [Audio-Sync] Line=155 | 音频溢出截断 3085->3066 | [current_slot_audio_len=3085 slot_duration=3066] | Timeline: 358052 -> 361118
[DEBUG] [Audio-Sync] Line=156 | 音频溢出截断 1109->1084 | [current_slot_audio_len=1109 slot_duration=1084] | Timeline: 361118 -> 362202
[DEBUG] [Audio-Sync] Line=157 | 音频末尾补静音 193ms | [current_slot_audio_len=1440 slot_duration=1633] | Timeline: 362202 -> 363835
[DEBUG] [Audio-Sync] Line=158 | 音频溢出截断 2350->2278 | [current_slot_audio_len=2350 slot_duration=2278] | Timeline: 363835 -> 366113
[DEBUG] [Audio-Sync] Line=159 | 音频末尾补静音 91ms | [current_slot_audio_len=1609 slot_duration=1700] | Timeline: 366113 -> 367813
[DEBUG] [Audio-Sync] Line=160 | 音频末尾补静音 93ms | [current_slot_audio_len=1173 slot_duration=1266] | Timeline: 367813 -> 369079
[DEBUG] [Audio-Sync] Line=161 | 音频末尾补静音 704ms | [current_slot_audio_len=929 slot_duration=1633] | Timeline: 369079 -> 370712
[DEBUG] [Audio-Sync] Line=162 | 音频溢出截断 1964->1894 | [current_slot_audio_len=1964 slot_duration=1894] | Timeline: 370712 -> 372606
[DEBUG] [Audio-Sync] Line=163 | 音频末尾补静音 110ms | [current_slot_audio_len=2556 slot_duration=2666] | Timeline: 372606 -> 375272
[DEBUG] [Audio-Sync] Line=164 | 音频溢出截断 2637->2588 | [current_slot_audio_len=2637 slot_duration=2588] | Timeline: 375272 -> 377860
[DEBUG] [Audio-Sync] Line=165 | 音频溢出截断 2476->2419 | [current_slot_audio_len=2476 slot_duration=2419] | Timeline: 377860 -> 380279
[DEBUG] [Audio-Sync] Line=166 | 音频溢出截断 592->566 | [current_slot_audio_len=592 slot_duration=566] | Timeline: 380279 -> 380845
[DEBUG] [Audio-Sync] Line=167 | 音频溢出截断 2091->2058 | [current_slot_audio_len=2091 slot_duration=2058] | Timeline: 380845 -> 382903
[DEBUG] [Audio-Sync] Line=168 | 音频溢出截断 1898->1869 | [current_slot_audio_len=1898 slot_duration=1869] | Timeline: 382903 -> 384772
[DEBUG] [Audio-Sync] Line=169 | 音频末尾补静音 32ms | [current_slot_audio_len=1568 slot_duration=1600] | Timeline: 384772 -> 386372
[DEBUG] [Audio-Sync] Line=170 | 音频溢出截断 1489->1418 | [current_slot_audio_len=1489 slot_duration=1418] | Timeline: 386372 -> 387790
[DEBUG] [Audio-Sync] Line=171 | 音频末尾补静音 27ms | [current_slot_audio_len=1339 slot_duration=1366] | Timeline: 387790 -> 389156

这些日志是音画对齐引擎的正常处理记录,表明您在翻译时未启用音频加速或视频慢速,对齐引擎采取了“静音填充/截断”策略来强制将配音音频匹配到原始字幕的时间轴。

  • 音频溢出截断:若配音音频的实际时长超过字幕时间轴标记的时长,引擎会直接切断多出的部分(可能导致语速听感变快或尾部被切)。
  • 音频末尾补静音:若配音音频比字幕时间轴短,尾部会补入静音(可能导致一句话说完后出现短暂停顿)。

如何改善同步质量

  1. 启用“音频加速”
    在主界面勾选“音频加速”,并在“更多设置”中调整“配音语速”(默认为0)。这会让引擎主动调整配音速度以匹配字幕时长,减少粗暴截断,听感更自然。
  2. 合并短字幕
    在“高级选项→语音识别参数”中,将“最短语音持续毫秒”设为 1000ms 以上,并勾选“合并过短字幕到邻近”。较短的字幕更容易因配音时长超出而被截断。
  3. 使用“二次识别”
    若最终视频嵌入硬字幕,请勾选主界面“二次识别”。这会在配音完成后重新转录配音音频生成精确对齐的字幕,可减少音画不同步感。
  4. 降低配音渠道的延迟
    如果是 Edge-TTS,请将高级选项中的“EdgeTTS配音渠道配音并发数”设为 1,“配音后暂停秒”设为 5,防止因微软限流导致生成异常时长的音频。
  5. 试听单视频编辑模式
    如果只选择一个视频,会在“配音完成后”弹出编辑窗口。您可以逐条试听,对明显截断或停顿的字幕手动调整文本后重新配音,或直接在该编辑框内调整时间轴。
  6. 更换 TTS 渠道
    某些渠道(如 OmniVoice、F5-TTS 等)对输入文本的长短稳定性较好,生成的配音时长更接近原字幕时长,可减少对齐时的处理幅度。

如果经过上述调整后问题依旧,请提供一段完整的日志(包括最终合成阶段前后的内容),以便进一步分析是否还存在其他异常。

Loaded as API: http://127.0.0.1:7860/
[DEBUG] index-tts data={'ref_wav': 'E:/pyvideotrans/tmp/38580/561b99a11d/clone-508.wav'}
[DEBUG] post={'prompt': {'path': 'E:/pyvideotrans/tmp/38580/561b99a11d/clone-508.wav', 'meta': {'_type': 'gradio.FileData'}, 'orig_name': 'clone-508.wav'}, 'text': 'any expression at the US-China meeting', 'api_name': '/gen_single', 'emo_ref_path': {'path': 'E:/pyvideotrans/tmp/38580/561b99a11d/clone-508.wav', 'meta': {'_type': 'gradio.FileData'}, 'orig_name': 'clone-508.wav'}}
[INFO] Finished call to 'videotrans.tts._f5tts.F5TTS._item_task.._run' after 1.843(s), this was the 1st time calling it.
[INFO] Finished call to 'videotrans.tts._f5tts.F5TTS._item_task.._run' after 2.016(s), this was the 1st time calling it.
[INFO] Starting call to 'videotrans.tts._f5tts.F5TTS._item_task.._run', this is the 2nd time calling it.
Loaded as API: http://127.0.0.1:7860/
[DEBUG] index-tts data={'ref_wav': 'E:/pyvideotrans/tmp/38580/561b99a11d/clone-506.wav'}
[DEBUG] po
......
is the 2nd time calling it.
Loaded as API: http://127.0.0.1:7860/
[DEBUG] index-tts data={'ref_wav': 'E:/pyvideotrans/tmp/38580/561b99a11d/clone-514.wav'}
[DEBUG] post={'prompt': {'path': 'E:/pyvideotrans/tmp/38580/561b99a11d/clone-514.wav', 'meta': {'_type': 'gradio.FileData'}, 'orig_name': 'clone-514.wav'}, 'text': 'Respect it.', 'api_name': '/gen_single', 'emo_ref_path': {'path': 'E:/pyvideotrans/tmp/38580/561b99a11d/clone-514.wav', 'meta': {'_type': 'gradio.FileData'}, 'orig_name': 'clone-514.wav'}}
[INFO] Finished call to 'videotrans.tts._f5tts.F5TTS._item_task.._run' after 9.328(s), this was the 2nd time calling it.
[INFO] Starting call to 'videotrans.tts._f5tts.F5TTS._item_task.._run', this is the 1st time calling it.
Loaded as API: http://127.0.0.1:7860/
[DEBUG] index-tts data={'ref_wav': 'E:/pyvideotrans/tmp/38580/561b99a11d/clone-516.wav'}
[INFO] Finished call to 'videotrans.tts._f5tts.F5TTS._item_task.._run' after 9.047(s), this was the 2nd time calling it.
[DEBUG] post={'prompt': {'path': 'E:/pyvideotrans/tmp/38580/561b99a11d/clone-516.wav', 'meta': {'_type': 'gradio.FileData'}, 'orig_name': 'clone-516.wav'}, 'text': "Please don't forget to subscribe the channel!", 'api_name': '/gen_single', 'emo_ref_path': {'path': 'E:/pyvideotrans/tmp/38580/561b99a11d/clone-516.wav', 'meta': {'_type': 'gradio.FileData'}, 'orig_name': 'clone-516.wav'}}
[INFO] Finished call to 'videotrans.tts._f5tts.F5TTS._item_task.._run' after 2.093(s), this was the 1st time calling it.
[INFO] Starting call to 'videotrans.tts._f5tts.F5TTS._item_task.._run', this is the 2nd time calling it.
Loaded as API: http://127.0.0.1:7860/
[DEBUG] index-tts data={'ref_wav': 'E:/pyvideotrans/tmp/38580/561b99a11d/clone-515.wav'}
[DEBUG] post={'prompt': {'path': 'E:/pyvideotrans/tmp/38580/561b99a11d/clone-515.wav', 'meta': {'_type': 'gradio.FileData'}, 'orig_name': 'clone-515.wav'}, 'text': "That's all for today.", 'api_name': '/gen_single', 'emo_ref_path': {'path': 'E:/pyvideotrans/tmp/38580/561b99a11d/clone-515.wav', 'meta': {'_type': 'gradio.FileData'}, 'orig_name': 'clone-515.wav'}}
[INFO] Finished call to 'videotrans.tts._f5tts.F5TTS._item_task.._run' after 8.766(s), this was the 2nd time calling it.
[INFO] Starting call to 'videotrans.tts._f5tts.F5TTS._item_task.._run', this is the 2nd time calling it.
Loaded as API: http://127.0.0.1:7860/
[DEBUG] index-tts data={'ref_wav': 'E:/pyvideotrans/tmp/38580/561b99a11d/clone-516.wav'}
[DEBUG] post={'prompt': {'path': 'E:/pyvideotrans/tmp/38580/561b99a11d/clone-516.wav', 'meta': {'_type': 'gradio.FileData'}, 'orig_name': 'clone-516.wav'}, 'text': "Please don't forget to subscribe the channel!", 'api_name': '/gen_single', 'emo_ref_path': {'path': 'E:/pyvideotrans/tmp/38580/561b99a11d/clone-516.wav', 'meta': {'_type': 'gradio.FileData'}, 'orig_name': 'clone-516.wav'}}
[INFO] Finished call to 'videotrans.tts._f5tts.F5TTS._item_task.._run' after 9.172(s), this was the 2nd time calling it.
[DEBUG] [字幕配音]渠道11:共耗时:1754s

从日志来看,软件正在正常调用您本地部署的 Index-TTS 服务进行声音克隆配音。每次会截取原始视频对应时间段的音频作为参考(clone-xxx.wav),连同文本发送给 http://127.0.0.1:7860//gen_single API。整个配音阶段耗时约 29 分钟(1754 秒),这是正常的,因为逐条克隆合成需要时间。

若您希望提升效率或解决其他问题,请明确描述具体现象(如配音杂音、角色不一致、进度卡住等)。若无其他问题,该日志表明配音阶段已顺利完成。

最后五分钟视频无声音

最后五分钟无声,根因在于音画对齐阶段(Audio-Sync)检测到某条字幕(如[517])的原始时长计算为负数(-204685ms),这导致后续所有处理无法匹配,最终音频在那一时刻被强制截断。

诊断步骤(建议按顺序执行)

  1. 确认原始视频时长和完整性
    打开命令行,运行:

    ffprobe -v error -show_entries format=duration -of default=noprint_wrappers=1:nokey=1 "你的视频.mp4"

    确保输出的时长与视频播放时长一致。若出现异常(如极短时间或错误),说明视频本身有问题,需修复或换源。

  2. 清理缓存、简化路径与命名

    • 将视频移到盘符根目录(如 D:\test.mp4),文件名只含英文、数字、下划线。
    • 必须勾选主界面左上角的 “清理已生成”,强制重新处理。
    • 不要勾选“视频慢速”、“降噪”、“分离人声”等额外选项,仅使用默认设置进行测试。
  3. 避开语音克隆,改用普通配音角色
    将配音角色clone 改为普通的 Edge-TTS 角色(如 Microsoft Server Speech Text to Speech Voice (en-US, JennyNeural))。
    克隆模式依赖精确的时间轴截取参考音频,时间轴异常会导致连锁错误。暂时跳过克隆可隔离问题。
  4. 在单视频交互模式下手动修正字幕
    只选择该一个视频翻译,当弹出以下编辑窗口时重点检查最后几条字幕

    • 语音识别后:查看字幕时间轴是否合理(起始时间 < 结束时间,且数值没有异常大)。
    • 字幕翻译后:同样检查目标字幕的时间轴。
      如果发现负时长或极长值,手动调整或删除该条字幕。
  5. 更新软件版本
    确认版本是否为 v4.01(菜单 → 帮助 → 关于)。若低于 v4.01,请从官网下载完整版覆盖安装(不要只覆盖补丁包)。

如果以上均无法解决

请提供 logs/ 文件夹下 最近一次运行生成的两个日志文件(日期命名),并将文件内容(至少包含从开始到报错前后共 50 行)粘贴出来。重点需要看到 音画对齐最终合成 阶段的详细输出,以便定位哪一步出现了负时长或截断逻辑。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update. Dondate: ko-fi.com/jianchang512

Related resource