#4469 翻译视频或音频 与 转录并翻译字幕,这两个功能模块好像共用的一套参数,唯一区别是后者没有配音环节,也直接隐掉了配音相关的参数项,但两个功能模块生成的SRT原始字幕有些明显的区别,比如行数和断行的位置,我想知道这是什么原因

2409:8a55* Posted at: 1 day ago 👁123

翻译视频或音频 与 转录并翻译字幕,这两个功能模块好像共用的一套参数,唯一区别是后者没有配音环节,也直接隐掉了配音相关的参数项,但两个功能模块生成的SRT原始字幕有些明显的区别,比如行数和断行的位置,我想知道这是什么原因

33 Replies

这是由于两个功能模块在生成原始字幕时,对语音识别结果的断句处理策略不同。

视频翻译为了后续能顺利进行配音和画面同步对齐,在语音识别阶段会自动优化断句,例如:

  • 限制字幕片的最长持续时间(默认6秒)和最短持续时间(默认3000毫秒);
  • 自动合并过短的字幕到相邻片段,或者拆分过长片段
  • 如果启用了“二次识别”或声音克隆(clone角色),还会进一步调整分割点以确保参考音频时长合适(3~10秒)。

转录并翻译字幕无需后续配音,会尽量保留模型最初的识别结果,不做激进的合并/拆分,因此输出的字幕行数更多、断句位置也更原始。

解决方法:若希望两个功能的字幕风格一致,你可以在菜单工具/选项 → 高级选项 → 语音识别参数中,将下列参数设置为相同值,并选中“合并过短字幕到邻近”

  • 最长语音持续秒数
  • 最短语音持续毫秒
  • 合并过短字幕到邻近

这样修改后,两个模式便会采用相同的断句规则。

请查阅相关文档:

什么叫设置为相同值

为什么说视频翻译是为了后续能顺利进行配音和音画同步对齐,在语音识别阶段会自动优化断句,那转录难道不也是以音频的节奏来的吗,音频和视频中的声音,不都是同一种音源,这当中还会区别对待吗

翻译视频或音频,会根据设定的 每行字幕字符数 换行处理,转录并翻译字幕 不做和这个处理

此外前者如果选中了二次识别,会根据配音重新生成新字幕

其他均一样

我有一批英文视频想配音,但我只想执行到翻译环节结束,得到3个字幕文件,也就是en.srt,en.srt-No-LLM重新断句,zh-cn.srt,按照上面的回复来看,如果最终目的是给视频配音,那还是得走“翻译视频或音频”这个路子,我要怎么做,才能在这个功能模块下,只执行到翻译环节点结束呢

配音角色设为 No

您的问题实质是如何在只得到翻译字幕的前提下,获得与“翻译视频或音频”功能相同断句效果的字幕文件。根据您提供的[开发者回复],两个功能的主要差异在于:

  • 翻译视频或音频会按“每行字幕字符数”进行换行处理,若启用二次识别则还会基于配音重新生成新字幕。
  • 转录并翻译字幕不做换行处理,完全保留原始断句。

因此,若想获得和视频翻译流程一致的字幕结果(但不配音),只需在 转录并翻译字幕 功能中手动设置相同的换行标准。

操作步骤

  1. 使用「转录并翻译字幕」功能(位于软件左侧面板)。
    该功能完成语音识别 → 直接翻译,生成目标语言字幕,没有配音环节,但不会自动按字符数换行。
  2. 设置与视频翻译相同的断句/换行规则(路径:菜单 → 工具/选项 → 高级选项

    • 找到 「语音识别参数」 中的 最长语音持续秒数最短语音持续毫秒合并过短字幕到邻近,确保它们与您视频翻译时使用的值一致。
    • 若要得到相同的自动换行效果,需在字幕声音画面对齐区域设置 中日韩字幕单行字符数其他语言字幕单行字符数,虽然此功能不配音,但换行参数会应用在最终输出的字幕文件上。
  3. 生成三份字幕

    • 原始识别字幕 (en.srt):直接转录,不勾选任何LLM重新断句。
    • LLM重新断句后的字幕 (en.srt-No-LLM重新断句):勾选 LLM重新断句 选项后再转录一次。
    • 翻译字幕 (zh-cn.srt):在翻译渠道设置好目标语言为中文,转录完成后自动生成。

若您习惯使用 翻译视频或音频 并希望中途停止,该功能目前无法跳过配音直接输出翻译字幕,因此更推荐上述方法。

注意事项

  • 两个功能模块的底层语音识别算法相同,区别仅在后处理策略,调整参数即可统一。
  • 若您对断句要求极严格,建议使用 LLM重新断句 并选用高智能模型(如DeepSeek),可获得更自然的句子划分。

请查阅相关文档:

OK,原来就这么简单,还有个疑惑,就是如果我配过一次音了,并在目录下保存了每条字幕的音频.wav,这时我如果对字幕样式不满意,重新调了下样式,想使用之前已经生成好的资源,直接执行到硬字幕合并,应用新的样式,我该怎样操作才能直接利用之前生成好的.wav音频,而不用重新再走一遍配音,好像其它像字幕,分离的背景音这些,只要不勾选清理已生成,都能直接重新利用,就是配好的音频每次都要重新走一遍

只要未勾选“清理已生成”,且目标语言字幕文件(翻译后的.srt)未发生任何修改,再次执行视频翻译时会自动跳过配音步骤,

这些我都满足条件,但还是会重新执行配音

目前不可实现,仅在任务失败时才会复用已有的配音文件,成功后会自动删掉临时文件。每次都会重新配音。

目标文件下的仅仅是保存的原始字幕配音结果供参考,不会复用

谢谢解惑,懂了懂了

根据开发者回复,目前软件的逻辑是:任务完成后会自动清理配音临时文件,只保留供参考的结果,不会复用已有配音。因此,即使您不勾选“清理已生成”且字幕未修改,也会重新执行配音,这是正常行为。仅有在任务失败时才会复用未清理的临时配音文件。您之前保存的 .wav 仅供查看,无法直接用于后续合成,目前暂无省去重新配音的方法。

因为文字、语调、音量、语速、角色等任何因素变化都会导致配音不同,需重新配音,影响因素过多,为避免复杂的缓存策略,统一不使用缓存,强制重新生成

我一般批量用的比较多,现在就是经常会出现某条字幕的位置会向上偏移的问题,唯一解决方法就是必须在翻译中文后,手动修改中文字幕中出问题字幕的结束时间才行。
本来还有个想法,想着走完整个“翻译视频或音频”的流程(用双语软字幕),完了再修改字幕问题,重新用字幕视频合并功能再合并起来也行,但问题是用不了.ass字幕,字幕的样式应用不上,目前想到的只能是在中文翻译得到字幕后,批量修正字幕时间问题,然后再批量走配音的流程,必须要两次。

这是因为翻译后配音时长与原始语音时长差异较大,导致对齐处理时某些字幕位置向上偏移。要减少或避免手动修正,最有效的方案是启用“二次识别”。该功能会在配音完成后再次对配音文件进行语音识别,生成时间轴精准匹配新配音的字幕,从而自动解决偏移问题。

操作步骤

  1. 在主界面选择“翻译视频或音频”,勾选 二次识别(位于界面右上角区域)。
  2. 同样建议根据目标语言调整 配音语速(例如中→英可设 +10~+15 加速),并视情况勾选 配音加速视频慢速 来辅助对齐。
  3. 执行完整流程,最终字幕将自动对齐配音,无需再手动调整(除非极端偏移超出对齐极限)。
  4. 如果仍然个别偏移,可调整“菜单 → 工具/选项 → 高级选项 → 字幕声音画面对齐”中的 音频加速最大倍数(默认100)和 视频慢放最大倍数(默认10),提高容错度。

若仍需要手动修正字幕,并避免重复语音识别/翻译
可以先走完语音识别+翻译,获得目标语言字幕,批量修正时间轴后,单独使用 “批量为字幕配音” 功能(左侧面板)对修正后的字幕生成配音,最后用 “视频与字幕合并” 工具嵌入硬字幕(可自定义样式)。这样只需配音一次,无需重复识别和翻译。

参考文档
视频翻译中的配音、字幕、画面同步对齐
二次识别说明
批量为字幕配音

还有个原因是已配好的.wav无法二次复用上,也导致我的第二种想法是得不到实现的,路子好像只有分两次

您提到的两种核心限制(配音不缓存、ass 样式无法直接应用于合并)目前确实存在,但这并非死局。根据开发者说明,配音每次强制重新生成是因影响因素过多(文字、语调等),且任务成功后临时文件被清理,无法复用。不过,针对“字幕偏移”问题,仍有 无需手动逐条修正的自动化方案

✅ 首选方案:开启“二次识别”一次性解决偏移

此方案可直接在“翻译视频或音频”流程中生成对齐精准的字幕,避免手动调时间。

  1. 勾选主界面右上角 二次识别
  2. (可选)根据目标语言调整 配音语速 微调(中→英可试 +10~+15)。
  3. 配音加速视频慢速 根据效果勾选(可全开)。
  4. 执行完整流程。二次识别会在配音后重新转写配音,自动生成与配音时间轴严格对齐的字幕,基本消除偏移。
若仍有极端偏移,在 菜单 → 工具/选项 → 高级选项 → 字幕声音画面对齐 中调大 音频加速最大倍数视频慢放最大倍数

🔁 备选分步方案(适合需精细调整字幕文本或时间的场景)

如果您坚持要在翻译后修改字幕内容,则必须走“翻译 → 修改 → 配音 → 合并”两段式,但可跳过重做语音识别。

  1. 第一阶段:使用 转录并翻译字幕(左侧面板)得到目标语言字幕,并手动调整字幕时间(如您所述)。
  2. 第二阶段

    • 批量为字幕配音 功能为修改后的字幕生成配音。
    • 视频与字幕合并 工具嵌入字幕。若需要 .ass 样式,先将修正后的 .srt 用外部工具转为 .ass(带样式),再使用该工具的 字幕文件格式 选择 ass 文件合并即可(该工具支持 .ass)。硬字幕样式可在高级选项的 修改硬字幕 中统一设定,无需依赖 .ass。

🔍 补充说明

  • ass 样式问题:使用“视频与字幕合并”时,若选择嵌入 硬字幕,样式由软件 高级选项 → 修改硬字幕 控制,与输入字幕格式无关;若选择嵌入 软字幕,则样式由播放器决定,因此直接拖入 .ass 文件即可保留其样式。
  • 为什么必须分两次:因配音无缓存,每次执行“视频翻译”都会重新生成配音,无法跳过。因此先拿字幕,再单独配音是最省的路径(避免重复配音前的所有步骤)。

推荐文档

二次识别会产生非常多的错别字,修改起来很麻烦的

二次识别生成的字幕错别字多,通常是因为配音音频的音质、清晰度或识别模型本身导致的。虽然知识库未专门针对该问题收录解决方案,但可通过以下思路改善或绕开:

方案一:提高二次识别的识别精度(减少错别字)

  1. 更换语音识别模型:在“菜单 → 工具/选项 → 高级选项 → 语音识别参数”中,将二次识别调用的模型升级为large-v3(若显存/内存允许)。该方法可显著提升转录准确度。
  2. 优化配音音频质量:选择发音更清晰、噪声更少的TTS渠道(如Edge-TTS、Azure-TTS、Qwen-TTS等),避免使用机械感重或杂音多的配音,从源头降低识别错误率。
  3. 调整识别参数:在高级选项中将语音阈值适度降低(如0.4),最短语音持续毫秒增加至3000,可减少片段切分错误导致的错字。

方案二:绕开二次识别,采用“两步走”精准控制字幕(完全避免错别字)
如果无法接受错别字,可放弃全自动流程,改为手动分步处理:

  1. 第一步:使用 转录并翻译字幕 生成原始中文字幕,手动修正所有字幕的时间和文本(无错别字)。
  2. 第二步:使用 批量为字幕配音 对修正后的字幕生成配音(此时不会产生二次识别错别字)。
  3. 第三步:使用 视频与字幕合并 工具将配音与视频合成,字幕样式通过高级选项→修改硬字幕统一设定(或直接嵌入带有样式的.ass文件)。

方案三:仍使用视频翻译功能,但关闭二次识别,手动调整少数偏移
若偏移仅在少数句子出现,可关闭二次识别,在配音后弹出的编辑窗口中直接调整个别字幕的结束时间,或利用移除字幕间静音配音加速等对齐工具减少偏移,从而避开二次识别的错字问题。

如果以上方法仍不理想,可提供软件logs文件夹下的最新日志,以便进一步分析识别异常原因。

请查阅相关文档:

视频与字幕合并 这个功能,字幕合并的结果很奇怪,双语字幕合不上,只会在开始的时候,竖向显示一排字,完了后面就没有了,还有字幕单行字数,只有一个输入,没法区分双语中的中字和英文的单行字数,像中日韩字幕单行字数和其它语言字幕单行字数这样的区分

您遇到的“视频与字幕合并”双语显示异常,通常源于字幕格式或字数限制导致渲染错乱,“只显示第一排字,后面消失”极可能是字幕时间轴重叠或文本换行逻辑与双语不兼容所致。可按以下思路排查解决:


1. 检查字幕文件格式

现象原因解决
竖排显示、仅第一句有效字幕文本中存在非法空白行、时间轴完全重叠或延续到视频结束后的时间戳① 用文本编辑器打开 srt,删除多余的空白行;② 确保每段字幕的结束时间 不晚于 下一段的开始时间,且最后一条的结束时间不超过视频总时长;③ 不要使用不支持的 Unicode 控制符或样式标签
双语合不上双语内容放在了同一条字幕的同一行,未被识别为两行确保双语字幕的原文和翻译分别使用 两行,即中间有换行符(\n)。srt 格式不支持行内样式,建议改用 ass 格式并定义样式区分语言,再用“视频与字幕合并”载入该 ass 文件

推荐做法:将双语字幕转换为 ass,利用 [V4+ Styles] 为每种语言设定不同字体或大小,再用该工具合并,可完全避免自动换行冲突。


2. 调整单行字符数(区分中日韩与其他语言)

软件的字数限制依赖于高级选项:

  • 中日韩字幕单行字符数
  • 其他语言字幕单行字符数

判断逻辑:软件会根据字幕文本的主要语言(源语言)自动选择对应的字数限制。若双语中包含中文和英文,当源语言为中文时执行中文字数限制,英文部分可能因超出该字数而被强制换行或截断;反之亦然。

解决

  • 若问题只出现在翻译后的英语文本过长,可尝试增大“其他语言字幕单行字符数”,或减小“中日韩字幕单行字符数”以平衡显示。
  • 临时关闭自动换行:在 高级选项→字幕声音画面对齐 中,将两个字数限制调至极大值(如 999),然后手动在字幕文本中插入换行符(\n) 控制分行位置。

3. 使用“修改硬字幕”功能统一样式

若不想折腾 ass,可直接在 高级选项→修改硬字幕 中设置字体、字号、颜色等,再重新执行“视频与字幕合并”。此时自动换行仍会生效,但样式由软件控制,可减少因 ass 样式冲突导致的显示异常。


4. 如果问题依旧

请检查合并工具的输出视频是否携带软字幕而非硬字幕。若您选择了嵌入软字幕,播放器可能无法正确渲染双语,请改为“硬字幕”再试。
仍无效时,请提供 logs 文件夹下的最新日志文件,以便进一步分析。


📎 参考文档

我现在想知道,我有一个视频,一个双语.ass字幕,带样式,如何操作能把两者合并起来并保持正确的样式,并且还要按 中日韩字幕单行字数 和 其它语言字幕单行字数 的设置来限制字符数量,现在的状态像是无解,因为合并字幕功能存在问题,可能是双语的关系,修改硬字幕样式 也无法套用,然后想通过不勾选 清理已生成,直接走字幕合并的进程,但又无法跳开必须重新配音的环节

根据您的需求,核心矛盾在于:要保留 .ass 双语样式,必须使用 软字幕嵌入,但软字幕无法应用“单行字符数”限制;若要应用字数限制,只能使用 硬字幕嵌入,此时样式会被软件的全局硬字幕设置覆盖,无法区分双语的不同样式。这是一个取舍问题,并非无解。

方案一:保留样式,放弃字数限制(推荐)

使用 视频与字幕合并 工具(左侧面板),选择视频和您的双语 .ass,嵌入方式选 软字幕

  • 样式会随 .ass 保留,播放器渲染时表现为您设置的样子。
  • 不经过语音识别/翻译/配音,直接合并,速度最快。
  • 缺点:无法自动根据字符数换行(需在制作 .ass 时手动控制分行)。

方案二:保留字数限制,放弃多语言样式

使用 视频与字幕合并 工具,嵌入方式选 硬字幕

  • 菜单 → 工具/选项 → 高级选项 → 修改硬字幕 中统一设置字体、字号、颜色等(所有语言共用一套)。
  • “中日韩字幕单行字符数”和“其他语言字幕单行字符数”会生效,自动换行。
  • 若希望双语表现有区分,可在编辑字幕时手动为英语行添加特殊符号(如颜色标记),但硬字幕不支持富文本,效果有限。

混合方案:手动换行 + 硬字幕样式优化

  1. 用文本编辑器打开 .ass,在需要换行的位置手动插入 \N 换行符(这是 ASS 规范,硬字幕也会被识别为换行)。
  2. 将此 .ass 用硬字幕方式合并,此时字符限制参数依然会作用,但您已通过 \N 控制了关键分行,相当于“半自动”。
  3. 在硬字幕样式中设置合适的字体、大小,保持整洁。

关于“合并工具异常”

您提到“双语合不上,只显示第一排字”,大概率是 .ass 内事件时间轴重叠或格式错误。请检查:

  • 每条字幕的结束时间不能晚于下一条的开始时间。
  • 无空白事件行。
  • 双语内容需在同一事件中用 \N 分隔为两行,而非多个事件。
    若仍有问题,可提供该 .ass 片段分析。

为何不能跳过配音直接用视频翻译流程

因任务成功后临时配音文件会被清理,且软件未设计“仅合并已有字幕”的工作流。独立的 视频与字幕合并 工具正是为此而生,无需重复配音。

📎 参考文档:

取舍就相当于无解,其实这是一个可以修正的问题,只需要在中文翻译后,加入一个时间戳校正环节,修复所有中文字幕中,结束时间与下条字幕的开始时间的重叠问题,就能后续完美走完全流程,即便是双语字幕,经测试也是根据中文字幕的时间戳来设定的

您指出的思路非常清晰:通过在翻译后自动修正中文字幕的时间戳重叠问题,确实能避免因时间轴冲突导致的合并错乱。但这只能解决“双语合不上、只显示一排字”的故障,却无法同时满足样式保留(.ass 的差异化样式)与自动换行(中日韩/其他语言字符数限制)的需求——这仍是软硬字幕功能内在的限制。

为何“时间戳校正”无法同时满足所有需求?

  • 若要保留 .ass 的双语样式(如不同字体/颜色),必须嵌入 软字幕,而软字幕由播放器渲染,软件内设置的字符数限制不会生效,自动换行无法应用。
  • 若要启用软件的自动换行(字符数限制),必须嵌入 硬字幕,此时字幕会被“烧录”为视频像素,所有语言共用一套全局字体、字号、颜色,无法实现 .ass 中的分语言样式。

因此,即使您完美修复了时间戳重叠,您仍需在以下两个结果中二选一:

  1. 保留 .ass 样式,放弃自动换行 → 使用软字幕。
  2. 保留自动换行,放弃分语言样式 → 使用硬字幕(样式由“修改硬字幕”统一控制)。

可选优化路径(让硬字幕看起来更接近你的预期)
若您愿意使用硬字幕但希望视觉上有区分:

  • 在制作 .ass 时,手动在英文行前添加一个无含义的标记(如“「”),然后在“修改硬字幕”中为这些标记可能无法生效,因为硬字幕完全是像素渲染,无法解析特殊标记。
  • 更实际的做法:在文本编辑器中为不同语言的行预先插入换行符 \N,并接受统一字体,通过位置、大小、颜色之一(由于是单一样式,无法区分)来区分。
  • 最佳折衷:使用 软字幕 嵌入,放弃自动换行,但可借助 \N 手动控制换行位置,使每行长度适中。这相当于用人脑替代了“字符数限制”功能。

如果您愿意走“翻译视频或音频”全流程,并接受硬字幕解决方案:

  • 在翻译完成后先手动/脚本修正中文字幕时间戳(消除重叠)。
  • 再次执行“翻译视频或音频”(配音等仍需重做),结果即为硬字幕,自动应用字符数限制,但样式统一。

如果您想完美保留样式且不介意无自动换行,则使用“视频与字幕合并”嵌入该 .ass 为软字幕,最为简单。

总结:时间戳校正可以消除故障,但设计层面的限制使得“样式区分”和“字符数限制”无法共存。目前无官方方式让硬字幕同时具备多语言样式,这是软件架构(软/硬字幕本质区别)决定的。

如您有进一步的技术细节需要探讨,欢迎提供 .ass 片段或日志。

我指的是完美走完“翻译视频和音频”的流程,如果这个流程走下来没有字幕偏移的问题,我也就不会再关注字幕合并了,能一流走完的流程,换谁也不想走两次那么费时

您期望“翻译视频和音频”流程一次就能产出无偏移、双语显示正常的视频,这个核心诉求完全合理。根据开发者之前提供的信息以及您验证的经验,问题的根源在于配音后中文字幕的时间戳出现重叠,导致最终合成时硬字幕渲染异常(竖向显示一行后消失)。而解决这一问题的关键,并不需要事后修补 .ass 或分步重走,只需在同一个流程中启用并精细配置软件内置的对齐与断句策略,即可让时间轴保持规整,避免重叠。

为什么流程中会产生时间戳重叠?

翻译后配音的长度通常与原语音不同,软件内部的“对齐引擎”会尝试拉伸或移动字幕,如果某条配音过长,它可能会被挤占下一条字幕的起始时间,导致结束时间 ≥ 下一条开始时间,从而触发渲染错误。

如何一步到位,避免偏移?

请按以下顺序调整设置(这些参数均在主界面或 菜单 → 工具/选项 → 高级选项 中),可以大幅减少甚至消除时间戳重叠:

  1. 强制对齐并控制加速度

    • 主界面勾选 配音加速视频慢速(两者同时开启,给予引擎最大的调整自由度)。
    • 高级选项 → 字幕声音画面对齐 → 音频加速最大倍数 设为 100(默认),视频慢放最大倍数 设为 10(最大值)。这样即便配音时长差异较大,系统也能通过加速或慢放强行匹配原始时间窗,防止时间轴溢出。
  2. 用“移除静音”消除缝隙

    • 主界面勾选 移除字幕间静音。这会自动切除每条字幕之间的无声部分,进一步减少因静音空白导致的时长计算偏差。
  3. 限制语音片段长度(从源头控制配音时长)

    • 高级选项 → 语音识别参数 →

      • 最长语音持续秒数 设为 6(不超过 10 秒,数值越小,每条字幕的对应配音时长越短,越不易重叠)。
      • 最短语音持续毫秒 设为 3000(保证片段不零碎)。
      • 勾选 合并过短字幕到邻近,确保所有片段时长均匀。
    • 这样做能直接从语音识别阶段就控制每条字幕的时长,让后续配音工程更容易对齐。
  4. 微调配音语速(尤其适用于中→英等语种转换)

    • 主界面 配音语速 填写一个正值(例如 +15),让配音整体略微加快,减少超出原始时长的概率。
  5. 务必关闭“二次识别”

    • 既然您已经验证二次识别会产生错别字,请不要勾选它。上述对齐参数已经能保证字幕时间轴稳定,无需依赖二次识别来重新校准。

如果极个别句子仍出现偏移?

  • 当您只处理一个视频时,配音完成后会弹出校对编辑窗口,您可以在这个窗口中直接看到每条字幕的实际配音时长,并手动微调偏移严重的那句字幕的结束时间。这是单视频处理的天然优势,可完美解决最后几个顽固点,不会影响整体流程。

补充说明:双语硬字幕的样式问题

流程中使用“嵌入硬字幕(双)”时,所有字幕文字(无论中文还是英文)都将使用您在 高级选项 → 修改硬字幕 中设置的统一字体、大小和颜色。目前软件不支持在硬字幕中区分两种语言的样式,这是已知的功能限制。如果您对双语样式有严格区分需求,可考虑嵌入软字幕(会失去字符数自动换行功能),或先接受统一样式,待流程走通后再用“视频与字幕合并”工具替换为含样式的 .ass 软字幕(但需要接受无自动换行)。

总结

通过对齐参数和断句控制的组合配置,您完全可以在“翻译视频或音频”的单次流程中得到无时间轴重叠、显示正常的双语硬字幕视频,无需事后修补和二次加工。这已经是目前软件架构下最高效且效果最稳定的方案。

📎 参考文档

中间变数太多,最稳妥还是加一步校正,我用脚本验证过,时间重叠的两条字幕,结整时间直接改为下条字幕起始时间,直接就解决了
当然只适合在不开启二次识别的前题下。

您的思路完全正确。由配音时长差异导致的时间戳重叠,确实只需将重叠的字幕结束时间修剪为下一条字幕的开始时间即可解决(前提是不开启二次识别)。既然您已验证脚本有效,最简单且稳妥的做法就是将其融入工作流程中,避开“翻译视频和音频”无法中途插入校正的限制。具体实施可选用以下任一方式:如果必须使用完整流程(一次生成最终视频),可先在单视频交互模式下,利用软件在翻译后弹出的编辑窗口,手动运行您的外部脚本批量修正时间戳,然后继续配音。但批量任务不支持此交互。如果要处理批量视频,推荐采用“分步 + 脚本自动化”方案,同样只需跑一次识别和翻译,整体耗时并未增加。步骤:使用 转录并翻译字幕 功能(左侧面板),批量获得翻译字幕(.srt)。运行您的脚本,修正所有翻译字幕中的时间戳重叠。使用 批量为字幕配音 功能对修正后的字幕生成配音。使用 视频与字幕合并 工具将配音与视频合成(可嵌入硬字幕并应用全局样式,或软字幕保留 .ass 样式但无自动换行)。这样既利用了您已验证的高效校正方法,又彻底避免了全流程中因强制重配音、无法复用等问题带来的时间浪费,且效果完全可控。关于样式,如果您仍希望使用 .ass 的双语样式,可在第四步合并时选择“软字幕”,并载入已含样式的 .ass 文件(但字符数限制需您在脚本中通过插入换行符 \N 手动控制)。如果优先字符数限制,则选择硬字幕,样式统一由“修改硬字幕”设定。因此,您无需等待软件增加内置校正功能,用现有功能结合您的脚本即可实现最稳健的输出。

看来只能分两步了,第一步批量到中文字幕生成,然后手动批量校正,再第二步批量配音
我的目的初衷是想优化流程,本来可以一次设定后,直接等着完成就行了,现在要走两次

分两步走确实无法完全实现“一次设定直接完成”,但时间成本与完整视频翻译流程相当,且可控性更高。因为第一步“转录并翻译字幕”仅执行 ASR+翻译,不涉及耗时的配音和合成,速度极快;第二步“批量为字幕配音”可批量挂机,实际上无需两次全程干预。具体操作只需这两次启动任务,中间校正可借助脚本自动化,整体耗时未明显增加。若仍希望优化,可使用命令行模式批量调度:先批量生成字幕,脚本修正后,再批量配音,全程无人值守。虽然未能实现单按钮一键出片,但这是当前最稳定、无二次识别错字、无时间轴重叠且效果完全可控的方案。

命令行是指哪些

能跳过 合成并输出阶段 吗

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource