您遇到了核心矛盾:修正了配音的读音,但导致字幕文本与视频原意不符。pyVideoTrans 目前没有内置的“多音字词典”来解决此问题,但可以通过以下两种方法实现字幕正确且配音读音也正确的目标。
方案一:使用“字幕多角色配音”工具(推荐,可精确控制)
此工具允许您为同一行字幕准备两个版本:一个用于显示(正确字幕),一个用于配音(正确读音的文本)。
- 准备工作:完成视频的“语音识别”和“翻译”,生成最终的
.srt 字幕文件(字幕文本已是您想要的正确内容)。 - 打开工具:在软件主界面,进入 “工具箱” -> “字幕多角色配音”。
- 加载字幕:导入上一步生成的
.srt 文件。 关键操作:在列表的“配音文本”列中,手动修改需要纠正读音的词语。
- 字幕文本列:保持为“银行”(显示正确)。
- 配音文本列:也修改为“银行”(确保读 yín háng)。如果此处显示的是错误的“行走”,您必须把它改回“银行”。
- 原理:TTS 引擎只读取“配音文本”列的内容来生成语音,而最终视频中嵌入的字幕来自“字幕文本”列。这样就实现了分离。
- 选择配音角色,执行配音。最后使用 “工具箱 -> 音视频合并/分离” 功能,将新配音的音频与原始视频合并。
方案二:后期手动校正(适用于少量错误)
如果错误不多,可以在最终合成后,用视频剪辑软件(如剪映、Premiere)进行微调:
- 在 pyVideoTrans 中正常流程处理,接受字幕与配音的误差。
- 导出视频后,用剪辑软件打开。
- 修改字幕:将视频中显示错误的字幕文本(如“行走”)修改为正确的文本(“银行”)。
- 或修改音频:单独录制“银行”的正确读音,在剪辑软件中替换掉原视频中错误读音的片段。
根本原因与预防
- 根源:错误源自语音识别(ASR) 步骤。Whisper 等模型将音频“yín háng”错误地转写成了“行走”。
- 最佳预防:在 ASR 之后、翻译之前 的第一个字幕编辑窗口中,就应将识别错误的“行走”修正为“银行”。这样后续的翻译、字幕、配音文本都基于正确的“银行”进行,一劳永逸。
结论:对于已处理完的视频,方案一(字幕多角色配音工具) 是最高效的解决方案,它完美地分离了显示文本和发音文本。对于未来的项目,请在 ASR 识别后立即校对修正,这是最根本的方法。