#4898 28分的视频,最后翻译完输出29分钟,字幕声音都对不上,字幕是对的,声音明显拉长了,我只勾选了配音加速

2409:8a55* Posted at: 21 hours ago

28分的视频,最后翻译完输出29分钟,字幕声音都对不上,字幕是对的,声音明显拉长了,我只勾选了配音加速

3 Replies

这是由于“配音加速”未能完全生效导致的。你只勾选了加速,但某些配音片段可能因限流、API错误或时长超出加速倍数上限而未被加速,软件退回到原始配音时长,使得总视频时长增加(28分→29分),同时原字幕固定,造成声音被“拉长”的感觉。

解决方法:

  1. 检查日志:打开软件根目录下logs/文件夹里最新的日志文件,搜索“配音”“限流”“403”等关键词,确认是否有Edge-TTS或其他配音渠道的报错。如果有,需在“高级选项”中将Edge-TTS并发数设为1、配音后暂停秒数设为5-10秒。
  2. 启用视频慢速:在“音频加速”旁边同时勾选“视频慢速”,让软件分担部分时长差值(慢放画面),避免单一加速负担过重。
  3. 增大加速倍数:进入“菜单→工具→高级选项→字幕声音画面对齐”,将“音频加速最大倍数”调高到200或300(默认100不够时可能失败)。
  4. 更换配音渠道:如果频繁出现限流或错误,可改用非Edge-TTS的付费或有保障渠道(如OpenAI TTS、Azure TTS)。

如果日志中没有明显错误,建议暂时同时启用“音频加速”+“视频慢速”重试一遍,观察输出时长是否恢复原长。

请查阅相关文档:

[DEBUG] [Audio-Sync] Line=571 | 音频溢出截断 1833->1472 | [current_slot_audio_len=1833 sk


=1472] | Timeline: 1493824 -> 1495296
[DEBUG] [Audio-Sync] Line=572 | 音频末尾补静音 443ms | [current_slot_audio_len=661 sk
=1104] | Timeline: 1495296 -> 1496400
[DEBUG] [Audio-Sync] Line=573 | 音频溢出截断 2182->1696 | [current_slot_audio_len=2182 sk
=1696] | Timeline: 1496400 -> 1498096
[DEBUG] [Audio-Sync] Line=574 | 音频末尾补静音 585ms | [current_slot_audio_len=455 sk
=1040] | Timeline: 1498096 -> 1499136
[DEBUG] [Audio-Sync] Line=575 | 音频溢出截断 4456->4064 | [current_slot_audio_len=4456 sk
=4064] | Timeline: 1499136 -> 1503200
[DEBUG] [Audio-Sync] Line=576 | 音频末尾补静音 566ms | [current_slot_audio_len=2362 sk
=2928] | Timeline: 1503200 -> 1506128
[DEBUG] [Audio-Sync] Line=577 | 音频末尾补静音 283ms | [current_slot_audio_len=1509 sk
=1792] | Timeline: 1506128 -> 1507920
[DEBUG] [Audio-Sync] Line=578 | 音频溢出截断 1297->1248 | [current_slot_audio_len=1297 sk
=1248] | Timeline: 1507920 -> 1509168
[DEBUG] [A
......
dio-Sync] Line=625 | 音频末尾补静音 4432ms | [current_slot_audio_len=1248 sk
=5680] | Timeline: 1625920 -> 1631600
[DEBUG] [Audio-Sync] Line=626 | 音频末尾补静音 1052ms | [current_slot_audio_len=2900 sk
=3952] | Timeline: 1631600 -> 1635552
[DEBUG] [Audio-Sync] Line=627 | 音频末尾补静音 459ms | [current_slot_audio_len=453 sk
=912] | Timeline: 1635552 -> 1636464
[DEBUG] [Audio-Sync] Line=628 | 音频末尾补静音 1285ms | [current_slot_audio_len=1307 sk
=2592] | Timeline: 1636464 -> 1639056
[DEBUG] [Audio-Sync] Line=629 | 音频溢出截断 2627->2400 | [current_slot_audio_len=2627 sk
=2400] | Timeline: 1639056 -> 1641456
[DEBUG] [Audio-Sync] Line=630 | 音频溢出截断 5073->3568 | [current_slot_audio_len=5073 sk
=3568] | Timeline: 1641456 -> 1645024
[DEBUG] [Audio-Sync] Line=631 | 音频末尾补静音 25ms | [current_slot_audio_len=871 sk
=896] | Timeline: 1645024 -> 1645920
[DEBUG] [Audio-Sync] Line=632 | 音频末尾补静音 328ms | [current_slot_audio_len=2312 sk
=2640] | Timeline: 1645920 -> 1648560
[DEBUG] [Audio-Sync] Line=633 | 音频溢出截断 2952->2864 | [current_slot_audio_len=2952 sk
=2864] | Timeline: 1648560 -> 1651424
[DEBUG] [Audio-Sync] Line=634 | 音频溢出截断 1638->1520 | [current_slot_audio_len=1638 sk
=1520] | Timeline: 1651424 -> 1652944
[DEBUG] [Audio-Sync] Line=635 | 音频溢出截断 3409->3152 | [current_slot_audio_len=3409 sk
=3152] | Timeline: 1652944 -> 1656096
[DEBUG] [Audio-Sync] Line=636 | 音频末尾补静音 412ms | [current_slot_audio_len=4980 sk
=5392] | Timeline: 1656096 -> 1661488
[DEBUG] [Audio-Sync] Line=637 | 音频溢出截断 6199->4784 | [current_slot_audio_len=6199 sk
=4784] | Timeline: 1661488 -> 1666272
[DEBUG] [Audio-Sync] Line=638 | 音频末尾补静音 2682ms | [current_slot_audio_len=6038 sk
=8720] | Timeline: 1666272 -> 1674992
[DEBUG] [Audio-Sync] Line=639 | 音频末尾补静音 1037ms | [current_slot_audio_len=4947 sk
=5984] | Timeline: 1674992 -> 1680976
[DEBUG] [Audio-Sync] Line=640 | 音频末尾补静音 391ms | [current_slot_audio_len=1899 sk
=2290] | Timeline: 1680976 -> 1683266
[DEBUG] concat_txt='D:/sk
-v3.99-428/tmp/56552/6616805e13/final_audio_concat.txt',filelist[0]='D:/sk
-v3.99-428/tmp/56552/6616805e13/silence_head_0.wav'
[DEBUG] [Audio-Concat] 最终音频已生成: D:/sk
-v3.99-428/tmp/56552/6616805e13/target.wav
[DEBUG]

==准备要嵌入的字幕:self.sk
_type=3
=
[DEBUG] 最终确定字幕嵌入类型:3 ,目标字幕语言:chi, 字幕文件:D:/sk
-v3.99-428/tmp/56552/6616805e13/shuang.srt

[DEBUG] [FFMPEG-CMD]:
ffmpeg -hide_banner -nostdin -ignore_unknown -threads 0 -y -i novoice.mp4 -vf tpad=stop_mode=clone:sk


=77.864 -c:v libx264 -crf 23 -preset medium -an final_video_with_freeze_lastend.mp4

[DEBUG] 视频定格应延长77864ms,实际向上取整秒延长77.864s,操作成功。
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 原始hw_type='h264_nvenc'
[DEBUG] 整理后hw_type='nvenc'
[DEBUG] [尝试硬件编解码执行命令]
-y -progress compose1780451742.0969086.txt -i novoice.mp4 -i origin_audio.m4a -filter_complex [0:v]subtitles=filename='shuang.ass'[v_out] -map [v_out] -map 1:a -c:v h264_nvenc -c:a copy -cq 23 -preset p4 -movflags +faststart -t 1761.133000 laste_target.mp4

日志显示大量“音频末尾补静音”(如443ms、2682ms)和“音频溢出截断”,说明配音音频时长与字幕目标时长普遍不匹配:加速不足以弥补差距时,软件被迫通过补静音填充,导致总音频长度增加,视频从28分变为29分。

解决步骤

  1. 同时启用“音频加速”和“视频慢速”:在主界面中勾选这两项,让软件同时使用加速和慢放两种方式分摊时长差异,避免单一手段负担过重。
  2. 调高加速倍数限制

    • 进入 菜单 → 工具 → 高级选项 → 字幕声音画面对齐
    • 音频加速最大倍数100 改为 200300(值越大,加速能力越强)
    • 视频慢速最大倍数 保持 10 即可(不建议再调大以免画面过于卡顿)
  3. 其他辅助选项

    • 在“设置更多参数”中,可尝试选中 移除配音前后静音对齐字幕声音,减少无效静音累积。
    • 如果使用了 Edge-TTS,请检查日志中是否有限流(403错误),如有则在高级选项中将 Edge-TTS并发数 设为 1配音后暂停秒 设为 5 以上,避免配音生成异常导致时长偏差。

重新执行一次,观察输出时长是否恢复至接近原视频长度(±几秒为正常,29分钟大幅超长说明补静音过多)。若仍不改善,可考虑更换配音渠道(如 OpenAI TTSQwen-TTS)或增加 视频慢速 权重。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update. Dondate: ko-fi.com/jianchang512

Related resource