#4938 [21.11% 852s] Resegment:ended 在这里卡了很久是怎么回事

104.160* Posted at: 3 hours ago

第一次使用都挺好的,刚刚去设置了字幕,就很慢了,这个应该不影响啊?

23 Replies

问题描述中的“Resegment:ended”是处理阶段的一个状态,长时间卡住通常是因为启用了CPU密集型功能导致的。你提到“去设置了字幕”,结合软件机制,最可能的原因是勾选了 “设置更多参数”中的“分离人声背景声” 或主界面的 “降噪”。这两个功能依赖 CPU 进行模型计算,速度极慢(尤其是分离背景声),会显著延长处理时间。

解决方案

  1. 检查并取消不必要的 CPU 密集型选项

    • 点击 “设置更多参数…”,查看是否勾选了 “分离人声背景声”。如果不需要背景音重新嵌入,请取消勾选。
    • 回到主界面,查看是否勾选了 “降噪”。若视频背景不太嘈杂,建议取消勾选。
  2. 确认视频慢速/其他优化开关

    • 检查主界面是否意外勾选了 “视频慢速”,该功能同样非常耗时且会产生大量临时文件(取消或切换为“音频加速”)。
  3. 静置等待或强制终止后重试

    • 如果已经卡住较长时间(超过10分钟),可以强制关闭软件,清理临时文件(删除 _video_out 文件夹和根目录下的 tmp 文件夹),取消上述选项后重新执行。
  4. 降低更敏感的语音识别参数(可选)

    • 进入菜单 “工具 → 选项 → 高级选项 → 语音识别参数”,检查 “最长语音持续秒数” 是否被设得过大(默认6秒,不要超过10秒)或 “最短语音持续毫秒” 是否过小(建议恢复默认500ms),不恰当的参数也可能导致处理异常缓慢。

参考文档

如果以上调整后问题依旧,请提供软件 logs/ 目录下最新日志的最后30行内容,以便进一步分析。

也没有完全卡住,就是很慢很慢

处理速度变慢通常不是由“修改硬字幕样式”本身引起的,而是因为设置字幕时可能同时启用了其他高消耗功能。请按以下步骤快速排查:

  1. 检查是否意外开启了 CPU 密集型选项

    • 点击主界面【设置更多参数】,查看是否勾选了“分离人声背景声”(极慢,依赖CPU)或“重新嵌入背景声”。
    • 在主界面右上角,查看是否勾选了“降噪”(同样使用CPU在线计算)。
    • 检查主界面是否勾选了“视频慢速”(会大幅增加处理时间和视频体积)。
  2. 确认语音识别模型是否过大

    • 若在 ASR 下拉框中选择了 large-v3distil-large-v3 等大型模型,处理长视频会非常缓慢。建议换为 mediumsmall,速度可提升数倍。
  3. 检查高级选项中的“二次识别”或“LLM重新断句”

    • 菜单 → 工具 → 高级选项 → 语音识别参数:如果开启了“LLM重新断句”或主界面勾选了“二次识别”,都会消耗额外时间。通常只需勾选“默认断句”即可。
  4. 临时测试排除

    • 建议取消所有非必需的选项,只保留核心流程:
      选择视频 → 选择medium模型 → 选择翻译渠道 → 选择Edge-TTS配音角色 → 点击开始
      如果此时速度恢复正常,说明是之前某个额外选项导致的问题。
  5. 清晰度与编码设置(如果输出视频较大也会显得慢)

    • 高级选项中,检查“视频输出质量控制”是否为默认23或更低(越低越慢但画质越好),可适当调高至28~30以加快速度。

请查阅相关文档:

如果以上调整后仍然非常慢,请提供 logs/ 目录下最新日志文件的最后30行内容,以便进一步定位具体哪个阶段耗时异常。

这个不能暂停吗,一点处理中那里暂停后,再开始就必须重新来

软件当前不支持“暂停后从中断点继续”的功能。点击暂停(或中间停止)会强制终止当前任务的整条处理流水线,并标记该任务为结束。重新开始时,如果勾选了“清理已生成”,软件会完全重新执行;如果未勾选,则会自动使用已存在的缓存文件(如已生成的字幕、配音音频等)跳过已完成的阶段,从而变相实现“从已经完成的部分继续”,但这并不是真正的断点续传,而是在已有结果的基础上重新运行剩余阶段。建议:如果不希望重新处理整个视频,不要勾选“清理已生成”,这样软件会检测到已有的字幕、配音文件并直接跳过对应步骤,仅处理未完成的部分(如最后合成)。对于需要逐段精细控制的需求,可以使用单视频交互模式(一次只选一个视频),该模式会在每个关键阶段后暂停并弹出编辑窗口,修改后点击确认继续,但仍然不支持从中途阶段恢复执行。当前设计无法更改,对此带来的不便请谅解。

CPU同时任务数[重启生效]
GPU同时任务数[重启生效] 这些怎么设置

在菜单栏点击 工具 → 选项 → 高级选项,切换到 通用设置 区域即可修改。

推荐配置(根据你的硬件):

  • CPU同时任务数:默认一般为 2 或 4,不要超过你的 CPU 物理核心数(例如 8 核 CPU 最大建议设为 8)。设置过大可能导致内存耗尽或系统卡顿。
  • GPU同时任务数绝大多数用户请保持为 1。仅在你拥有多张 NVIDIA 显卡或单张显存大于 24GB 时,可尝试设为 2。设为 >1 容易导致显存溢出,反而更慢甚至失败。

注意:

  • 修改后必须 重启软件 才能生效。
  • 如果你之前遇到处理慢的问题,CPU任务数可适当加大(比如设为核心数的一半或全部),GPU任务数保持 1。如果仍然慢,说明瓶颈不在并发数,而可能是模型选择、网络或磁盘 I/O 等其他因素。
不建议盲目调高,请根据实际表现逐步调整,观察是否改善。

传统翻译渠道每批字幕行数
.10
传统翻译渠道每次发送字幕行类
Al翻译渠道每批字幕行数50
Al翻译一次性翻译所有字幕行口
翾译后暫停秒
0
发送完整字幕
Al翻译模型温度值
0.2 这个怎么设置

这些参数在 菜单 → 工具 → 选项 → 高级选项 → 字幕翻译调整 区域设置。不同值对速度和效果的影响如下:传统翻译渠道每批字幕行数(默认10)控制每次发送给传统翻译接口(如 Google、微软)的字幕条数。增大该值(如 20~30)可提升翻译速度,但可能被服务商限流或报错。建议保持10~20。AI翻译渠道每批字幕行数(默认50)控制每次发送给 AI 翻译接口(如 DeepSeek、OpenAI)的字幕条数。增大可加快速度,但会消耗更多 token。若使用本地小模型(7B 以下),建议减小到 20~30 避免超长上下文失败;若使用在线旗舰模型,可保持 50 或更大。AI翻译一次性翻译所有字幕行(默认关闭)开启时,软件会将全部字幕一次性发给 AI,翻译质量最佳,但必须使用支持超长上下文的先进模型(如 GPT-4o、DeepSeek V3),且需在对应渠道设置中将 max token 设为较大值(否则可能被截断报错)。关闭此选项时,AI 按“每批字幕行数”分批翻译。如果你觉得速度慢,建议保持关闭。翻译后暂停秒(默认0)每次翻译请求后的等待秒数,用于限制请求频率,防止被服务商限流。如果你使用免费渠道(如 Google、Edge-TTS)或高频使用时出现报错,建议设为 1~3 秒;使用付费 API 且无限流时可保持 0。发送完整字幕(建议开启)AI 翻译时,连同字幕行号和时间轴一并发送给大模型,帮助模型理解上下文,提升翻译质量。AI翻译模型温度值(默认0.2)控制翻译结果的随机性。0 为严格按字面翻译,1 为最大创造性。默认 0.2 是通用平衡点,一般无需修改。建议调整方案(兼顾速度与质量):传统翻译保持 10~15。AI 翻译设为 30~50,关闭“一次性翻译所有字幕行”。翻译后暂停秒设为 1~3。开启“发送完整字幕”。温度保持 0.2。修改后立即生效,无需重启软件。若仍感觉慢,需结合 ASR 模型选择(改用 small/medium)和配音渠道(避免 CPU 密集的选项)综合优化。

音频加速最大倍数
100
视频慢放最大倍数
10
中日韩字幕单行字符数
15
其他语言字幕单行字符数
20 这里设置错了吗

这些参数没有设置错误,它们主要影响字幕样式和音画同步的极端情况,不会导致处理速度变慢。如果你觉得软件变慢了,请从其他方面排查(如模型太大、启用了降噪/分离背景声等)。下面对照你设置的数值进行说明:- 音频加速最大倍数 (100):默认值,正常。配音时长超过原时长时,最大加速100倍(极罕见用到那么大)。- 视频慢放最大倍数 (10):最大值(不可大于10),正常。慢放倍数越大,视频质量损失和尺寸膨胀越明显,但不是速度慢的根本原因。- 中日韩字幕单行字符数 (15):偏小,会导致字幕频繁换行,但不影响处理速度。建议保持默认20左右,或根据观看习惯调整。- 其他语言字幕单行字符数 (20):同样偏小,建议设为30~46。不会影响速度的结论:这几个参数只影响合成阶段字幕的显示样式,而速度瓶颈主要出现在语音识别(ASR)和背景音分离阶段。如果你之前正常、修改字幕设置后变慢,很可能是无意中勾选了其他选项(请看主界面:是否勾选了“降噪”?是否在“设置更多参数”中勾选了“分离人声背景声”?)。请取消这些CPU密集型选项再试。如果仍需调整这些数值,可以按以下参考:- 中日韩单行字符:20~25- 其他语言单行字符:35~46修改后立即生效,无需重启。如果问题依旧,请提供 logs/ 目录下最新日志的最后30行,以便定位到底哪个阶段变慢了。

配音合成后得到的视频,后面的画面完全不匹配是怎么回事,

这是视频翻译中的正常现象,根本原因是不同语言的音节数和语法结构差异导致配音时长发生改变。例如:原始中文句子时长1秒,翻译成英文配音后可能变成3秒,软件默认不会自动调整时长,因此后续画面和声音会越来越脱节。解决办法(按推荐顺序尝试):1. 开启 音频加速(主界面第5行)“音频加速”:勾选此项,软件会自动加速配音音频以匹配原字幕时长。这是最简单有效的方法,对音质影响很小。2. 结合 视频慢速 使用如果单纯加速配音导致语音失真或效果不自然,可以同时勾选“视频慢速”和“音频加速”。软件会各承担一部分时长差,避免极端加速。3. 调整高级选项中的“音频加速最大倍数”菜单 → 工具 → 选项 → 高级选项 → 字幕声音画面对齐默认100倍足够,无需改动。4. 如果画面与配音内容完全错乱,可能是你没有勾选任何对齐选项,导致软件直接将配音按原字幕时间轴拼接,时长不匹配造成错位。务必勾选“音频加速”或“视频慢速”,二选一或同时勾选即可。5. 单视频交互微调(提高同步精度)如果一次只处理一个视频,可在配音完成后弹出的编辑框中校对实际配音时长,手动调整文字或重新配音,以尽量接近原时间轴。常见问题补充:- 如果画面长、配音短,软件默认不做处理,画面会定格等待配音播放完毕,此时看起来画面“卡住”是正常现象。- 如果配音长、画面短,又没有启用加速/慢速,则配音会覆盖下一段画面,导致混乱。请按上述方法设置后重新处理视频。若仍有问题,请提供你当前的设置截图(是否勾选了音频加速/视频慢速)。

配音语速+%
10 这样加得太少了吗,。还有气口能设置吗

配音语速 +10% 可能偏少,但取决于具体需求。软件没有对语速调整设置下限或上限,但过高的语速(如 +100% 以上)会明显失真。建议:可以先尝试 +30% 或 +50%,观察配音时长是否接近原语音时长。如果仍偏差较大,建议同时勾选主界面的 音频加速,软件会自动进一步加速对齐。气口(呼吸声)无法单独设置。软件不支持调整配音中的呼吸声、停顿等细节。如果使用 Edge-TTS 等在线免费渠道,生成的音频通常已包含自然的气口;如果需要更精细的控制,可考虑使用本地部署的 TTS 引擎(如 GPT-SoVITS、CosyVoice 等),通过选择调整参考音频或手动编辑字幕文本(在断句处换行或添加标点)来间接影响配音的节奏,但软件本身不提供气口参数。

Whisper预分割音频这个有什么用

该选项的主要作用是在将音频发送给 Whisper 模型识别之前,先使用 VAD 算法将音频切分为较短的句子片段。启用后可以提高断句质量,并让声音克隆更稳定。具体说明如下:优点改善断句效果:预分割可以避免模型输出过长、无分割的字幕,使每句字幕时长更合理(通常3-8秒)。提高克隆质量(重要):若主界面配音角色选择了 clone(使用原视频音色配音),必须勾选此项。同时建议将“最短语音持续毫秒”设为 3000,“最长语音持续秒数”设为 10,以确保参考音频长度在克隆模型要求范围内(3-10秒)。缺点处理速度略降:预分割需要额外计算时间,但影响很小,通常可以忽略。如果不需要声音克隆,且对当前断句效果满意,可以不勾选,节省这部分开销。建议在需要原音色配音(选择 clone 角色)时,务必勾选。在普通翻译配音(不使用声音克隆)时,如果觉得识别出的字幕断句不理想,可以尝试勾选。也可取消勾选,观察哪种模式对你当前视频效果更好。

配音时长
[2.61s]超出0.65s
[2.65s]超出0.39s 这样的影响最后的匹配吗

配音时长超出原时长(无论超出多少,哪怕0.1秒)都会影响最终同步匹配。如果没有勾选任何对齐选项,软件会把这段配音按原字幕时间轴硬拼上去——配音播完的时间点晚于原字幕结束时间,导致后续所有画面和声音逐渐错位,并且错位会累积,到视频末尾可能非常明显。解决方案:请勾选主界面第5行的 音频加速。软件会自动将配音加速到与原字幕时长一致。对于你提到的超出0.39s(原2.61s,配音3.00s),加速比例约为15%,人耳几乎无法察觉,对音质影响极低。如果同时觉得语速偏快,可适当降低“配音语速”值(如-10%)来补偿。如果不希望任何加速,也可以勾选 视频慢速,软件会减慢对应画面播放速度来等待配音播完,但输出视频体积会增大。建议:始终勾选“音频加速”。这是解决同步问题最有效且副作用最小的方式。

为什么视频慢饭还是和音频不匹配呢

视频慢放并不能保证完美同步,原因如下:核心原因视频慢放是分段处理的:软件只对时长超出字幕原时长的片段进行减速播放,但不同片段的超出量可能不同,加上编码和解码的累积误差,最终仍可能出现少量错位。此外,当配音时长小于原时长时,软件默认不做任何处理,这也会造成前后节奏不一致。改善建议优先组合使用:建议同时勾选“音频加速”和“视频慢速”。软件会将时长差按比例分配给加速和慢放,各负担一部分,减少单边极端调整导致的失真,同步效果更好。检查慢放倍数上限:在高级选项 → 字幕声音画面对齐中,“视频慢放最大倍数”默认为10,已经足够。如果设得太小(如2),超出范围的部分无法被慢放补偿。使用单视频交互模式:一次只处理一个视频,在配音完成后会弹出编辑框,你可以查看每句配音的实际时长和偏移量,手动调整文字或重配音,让时长尽量接近原时间轴。这是精度最高的方式。移除静音缓冲:在高级选项中,勾选“移除配音前后静音缓冲”和“移除字幕间静音”,可以减少不必要的间隙,让对齐更紧凑。总结:视频慢放不能完全解决不同步问题,建议始终勾选“音频加速”,必要时同时勾选“视频慢速”。如果对同步质量要求极高,推荐使用单视频交互模式进行精细微调。

生成的视频放播放器可以播放。但是放剪映里面没有声音是怎么回事

生成的视频在播放器中能正常播放,但在剪映中无声音,最常见的原因是音频编码格式或多音轨处理方式与剪映的导入规则不兼容。请按以下步骤排查和解决:1. 检查音频编码格式用 MediaInfo(或类似的视频信息工具)打开文件,查看“音频”一栏的格式:如果显示为 aac,通常是兼容的;如果显示为 opusflacpcm_s16le 或其他不常见格式,剪映可能无法解码导致无声。解决方案:在软件菜单 → 工具 → 选项 → 高级选项 → 视频输出控制 中,勾选“强制软编码视频”(禁用硬件编码),然后重新处理一次。或者使用格式工厂/ ffmpeg 将音频流单独转为 AAC 再导入剪映:ffmpeg -i input.mp4 -c:v copy -c:a aac output.mp42. 检查是否有多音轨如果软件在合成时同时保留了原音轨和配音音轨(如选择了“嵌入软字幕”且未覆盖音轨),剪映可能选择了静音的轨道。可以尝试在剪映中将音频轨道切换或直接拖拽到音频轨道上。更简单的方法:在软件主界面取消勾选“嵌入软字幕”,改为“嵌入硬字幕”,这样只保留配音单音轨。3. 硬件编码导致的兼容问题如果启用了 CUDA 加速,某些编码配置可能生成剪映不支持的音频流。请按方法1中的操作,勾选“强制软编码视频”,然后再试。4. 检查文件是否损坏尝试用 potplayer 或 VLC 播放,确认确实有声音。如果其他播放器有声音,剪映无声音,则属于剪映的兼容性限制。可以先使用格式工厂将视频转换为标准 MP4(H.264+AAC)再导入剪映。如果以上方法均无效,请提供软件 logs/ 目录下最新日志的最后30行,以便检查合成时的音频编码参数。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update. Dondate: ko-fi.com/jianchang512

Related resource