#4643 识别语音,然后进行翻译,校对无错别字,然后生成语音,最后生成字幕的时候有错字,这个问题如何解决?

36.143* Posted at: 3 hours ago 👁30

识别语音,然后进行翻译,校对无错别字,然后生成语音,最后生成字幕的时候有错字,这个问题如何解决?image

13 Replies

这是由于启用了“二次识别”功能导致的。当配音完成后,软件会对配音音频再次进行语音转录并生成新字幕,这个过程中可能产生新的识别错误,覆盖了你已经校对过的正确字幕。

解决方法:

  1. 取消勾选“二次识别”:在主界面找到 二次识别 复选框,取消选中。这样字幕会直接使用你校对后的原文字幕(或翻译后校对过的字幕)进行嵌入,不会再被二次识别覆盖。
  2. 如果仍需精确对齐:可以保留二次识别,但需要改用更准确的语音识别模型(如 faster-whisper large-v3)或提高 VAD 参数精度,减少二次识别时的错字。

请查阅相关文档:

如何调整VAD参数精度,建议值是多少?对了,关于二次识别,推荐开启还是关闭

VAD参数推荐值

在菜单 工具/选项 -> 高级选项 -> 语音识别参数 中调整,建议值如下:

  • 语音阈值:0.5(默认,过低可能将噪声误判为语音,过高可能遗漏语音)
  • 最短语音持续毫秒:3000(即3秒,避免过短的无意义片段)
  • 最长语音持续秒数:6(不要超过30秒,防止长句被强制分割)
  • 静音分割持续毫秒:140(比默认500更小,可在更短的静音处切分,提高字幕密度和准确性)

二次识别建议

  • 不开启(推荐用于已校对字幕):如果你已经手动校对了翻译后的字幕文字,并且希望保留校对的准确文本,请关闭二次识别。否则二次识别会重新转录配音音频,可能引入新的错别字,覆盖你校对过的内容。
  • 开启(用于精确时间轴对齐):如果更看重字幕与配音的时间精确同步(例如希望字幕文字刚好匹配配音的每个字),且愿意接受可能出现的轻微识别错误,则开启二次识别。此时应配合使用高质量的语音识别模型(如 faster-whisper large-v3)并调整好VAD参数。

总结:已校对字幕 → 关二次识别;追求时间精准且不介意小错 → 开二次识别并调优参数。

还有就是,通过LLM重新断句,会造成某一句的字幕数量太多,这个如何规避

这是由于LLM重新断句功能在合并短句时,没有限制单句的最大长度,导致过长句子。可采取以下措施规避:1. 降低每批次字幕行数:进入 菜单-工具/选项-高级选项-通用设置,将 LLM重新断句每批字幕行数 从默认20改为更小的值(如5或10),减少LLM一次处理的上下文,使其更难合并出超长句。2. 修改LLM提示词:打开 videotrans/prompts/recharge/recharge-llm.txt,在提示词末尾添加限制,例如“每条字幕不超过30个字符”或“不要合并成过长的句子”,注意不要改变输入输出格式。3. 改用自动修正:在高级选项中,将 语音识别参数-LLM重新断句 改为不启用(设为“不处理”或“自动修正”),自动修正不会合并句子,仅修复标点和断句。4. 调整最长语音持续秒数:在语音识别参数中将该值设为更小(如4秒),让初始识别出的字幕片段更短,LLM合并后也不会太长。推荐优先尝试第1步,效果明显且无需修改代码。若仍不满意,再考虑修改提示词或关闭LLM断句。

我看到官方文档,说LLM值越大,效果越好,是这个意思吗?我看了一下,我设置的是50

理解你的困惑。文档中的“值越大效果越好”指的是“断句连贯性”和“上下文理解”效果更好,但不会自动限制单条字幕的最大长度,因此设置过大(如50)会导致LLM倾向于将多条字幕合并为一条超长句,这正是你遇到的问题。

建议:将“LLM重新断句每批字幕行数”由50改为10-20,这样既能利用LLM改善断句连贯性,又能有效控制每条字幕的长度。同时,在提示词中明确添加“每条字幕不超过30个字符”之类的限制(需修改recharge-llm.txt),可进一步确保不产生超长句。若仍不满意,可关闭LLM断句,改用“自动修正”模式。

修改后请重新处理视频测试效果。

我打开recharge-llm.txt ,全部是英文,看不懂,请问,如何修改,放在什么位置

文件位于 软件目录/videotrans/prompts/recharge/recharge-llm.txt,用记事本打开,在末尾另起一行添加以下中文提示(不要修改其他内容):

注意:每条字幕不要合并成超过30个字符的句子,请保持字幕简短。

保存后重启软件即可生效。如果仍出现长句,可继续降低字符数限制(如改为20)。若不想修改文件,建议将“LLM重新断句每批字幕行数”直接设为10,效果已足够。

我的原视频开始部分有一个片头背景音乐,制作完成后,片头的背景音乐也没有了,如果我还想保留,这个怎么解决

这是由于默认的配音流程会替换原音频,导致背景音乐丢失。要保留片头等位置的背景音乐,需在翻译时对人声和背景声进行分离处理,并在合成时重新嵌入背景声。

解决方案:

  1. 勾选“分离人声背景声” – 主界面选择此项,软件会在语音识别前将背景音乐和人声分离。
  2. 勾选“重新嵌入背景声” – 确保分离出的背景音乐在最终视频中重新合成回去。
  3. 设置背景音量(可选):在“设置更多参数”中调整“背景音量”(默认0.8,建议保持或适量调大)。
  4. 处理时长不足:如果片头背景音乐较长但视频整体较短,可勾选 “循环背景音” 以使背景音乐重复填充。
注意:如果已经处理过一次,需要重新执行时,请先勾选主界面左上角的 “清理已生成”,强制重新从头处理。

操作位置示意:

  • 主界面 → 选择视频 → 在下方参数区找到 “分离人声背景声”“重新嵌入背景声” 两个复选框,均勾选即可。

我看到有一些英语视频只是简单的添加了中文字幕,想这类视频,能把字幕去掉,然后根据语音重新添加字幕吗

软件无法直接去除视频中已有的硬字幕。pyVideoTrans 的核心功能是基于音频轨道识别语音,不涉及对画面中已嵌入文字的检测或移除。如果硬字幕不影响画面,可以_忽略_它们,直接对原始音频进行语音识别和翻译,生成新的字幕嵌入(软硬均可)。新字幕会叠加在原有硬字幕之上,可能导致画面混杂。如果硬字幕必须去除,需要借助视频编辑软件(如剪映、Premiere Pro)对相应区域进行模糊处理或裁剪,推荐方案:- 如果硬字幕位于画面的固定区域(如底部),可使用视频编辑软件将画面向上裁剪或添加模糊遮罩;- 或者使用 AI 修复工具(如 Remove Logo Now)去除后再用本软件处理。另外,如果希望基于语音重新生成字幕,只需在主界面选择源语言为英语、目标语言为中文,关闭“清理已生成”并以新视频任务正常执行即可,原有硬字幕不会被干扰。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource