#5117 我不想二次LLM断句,关于语音识别,有没有推荐的参数

2a14:4900* Posted at: 20 days ago

我不想二次LLM断句,关于语音识别,有没有推荐的参数

7 Replies

推荐参数(关闭 LLM 重新断句)

菜单 → 工具 → 高级选项 → 语音识别参数 中进行以下调整,可显著改善断句效果且不启用二次LLM处理:

参数推荐值说明
rephrase(在设置中表现为“LLM重新断句”)0(或关闭)关闭AI重新断句,使用默认断句
语音阈值0.5平衡语音检测灵敏度
最短持续时间/毫秒1000过短字幕合并到邻近(若不开合并,则用 3000 避免碎片)
最长语音持续时间/秒5避免长句被无意义分割
静音分割持续毫秒140~300越小切分越碎,越大句子越长;常用 140
合并过短字幕到邻近勾选将短于 最短持续时间 的字幕自动合并

如果使用 clone 语音克隆音色,建议改为:

  • 最短持续时间:3000
  • 最长语音持续时间:6~10
  • 关闭“LLM重新断句”

识别渠道建议

  • 中文:优先选择 Qwen-ASR(本地)字节语音大模型极速版阿里FunASR+paraformer-zh
  • 英文/其他:faster-whisper(本地) + large-v3openai-whisper + large-v3

额外提升

  • 若视频背景嘈杂,在主界面勾选 降噪分离人声背景声
  • 每次只翻译一个视频(单视频模式)会在识别后弹出编辑框,可手动校验断句。

请查阅相关文档:

怎么每次的结果不一样啊,我记得上次说是高级选项: 最长语音持续描述 7秒 最短语音持续描述 2600 静音分割300 开启合并

语音识别参数没有“唯一正确”的数值,不同视频类型、不同语言、是否启用语音克隆,最佳参数会不同。你提到的“最长7秒/最短2600ms/静音分割300/开启合并”也是合理的配置,适合大部分场景。

若你追求稳定且效果均衡,以下为知识库FAQ 6推荐的通用参数(不启用LLM重新断句):

参数推荐值
语音阈值0.5
最短持续时间/毫秒3000
最长语音持续时间/秒6
静音分割持续毫秒140
合并过短字幕到邻近勾选

如果使用语音克隆(clone角色),建议改为:

参数推荐值
最短持续时间/毫秒3000~4000
最长语音持续时间/秒6~10
静音分割持续毫秒140~300
合并过短字幕到邻近勾选

参数差异的原因:

  • 克隆时需要足够长的参考音频(3秒以上)才能稳定提取音色,短于3秒的片段容易报错或产生杂音。
  • 静音分割值越小,字幕越碎,克隆时参考片段越短可能失败;值越大,句子越长,但克隆参考更充分。

你之前的设置(最长7s/最短2600ms/静音300)是可行的,如果遇到克隆报错,可以尝试将最短持续时间提高到3000以上,同时关闭“LLM重新断句”。

请查阅相关文档:

开启二次LLM识别,效果提升多少

LLM 重新断句的效果提升高度依赖所使用的 AI 大模型本身的能力,并非一定优于默认断句。可能提升的地方:

  • 修正语音识别中的错别字
  • 重新切分过长的句子,让字幕更通顺
  • 补充缺失标点,改善阅读体验

也可能导致更差的结果

  • AI 可能随意合并/拆分字幕行,导致翻译后的字幕行号对应错乱
  • 时间轴被重排后,若使用 clone 语音克隆,从原始视频截取参考音频会因时间错位而出错
  • 大模型生成的内容不可控,有时会丢字或添加无关文字

建议

  1. 如果不使用 clone 音色,且视频为单语言长对话,可以开启 LLM 重新断句,配合 DeepSeek 或 ChatGPT 旗舰模型,通常能提升断句流畅度和正确率。
  2. 如果使用 clone 音色,请务必关闭 LLM 重新断句,并手动设置较短的最短持续时间(3000ms以上)和较长的最长持续时间(6~10s),同时勾选“合并过短字幕”。
  3. 最稳妥的方法是:每次只翻译一个视频,在语音识别结束后弹出的编辑窗口中手动调整断句和错别字。

效果提升幅度没有量化指标,建议在你自己的视频上分别测试开启与关闭两次,对比字幕质量后决定。

怎么翻译的都是断句,如何解决这个问题,61
00:03:38,710 --> 00:03:44,290
切换到面选择模式,选中这个面,然后按
62
00:03:44,290 --> 00:03:45,910
键盘上的 E 键

你遇到的断句问题是正常的——软件按字幕行号严格1:1翻译,源字幕有多碎,翻译结果就有多碎。若你希望翻译后的字幕更连贯,核心是在语音识别阶段让源字幕变“长”,而不是靠翻译阶段合并。

以下是两种解决方案:

方案一:使用 LLM 重新断句(推荐,不改变源语言字幕行数合并)
菜单 → 工具 → 高级选项 → 语音识别参数 中,将 LLM断句(rephrase) 设为 开启,并选择一个合适的 AI 渠道(如 DeepSeek)。它将自动合并过短字幕、修正断句,使源字幕更连贯,翻译结果也会随之变长。
注意:此选项仅在“翻译视频或音频”主功能中有效,若使用“批量翻译 srt 字幕”面板,需先对源字幕文件单独使用 LLM 断句功能(主界面左侧“批量语音转字幕”面板中有“LLM重新断句”开关)。

方案二:调整 ASR 参数(不使用 LLM)
若你坚持不使用 LLM 重新断句,请调整以下参数(同样位于高级选项 → 语音识别参数):

  • 静音分割持续毫秒:增大到 600~1000,让模型在更长的静音后才切分,减少碎片。
  • 最长语音持续时间秒:增大到 10~15,允许单条字幕更长。
  • 最短持续时间/毫秒:设为 2000 以上,并勾选 合并过短字幕到邻近

调整后重新执行语音识别(需先清理已生成的字幕缓存),产生的源字幕会更连续。

方案三:手动编辑源字幕后再翻译
如果不想重新识别,可以手动编辑已有的 SRT 文件,合并短行为长句,再导入翻译。

补充提示:若你使用的是“批量翻译 srt 字幕”面板,翻译结果无法自动合并行,唯一办法是让源字幕本身更连续。而在“翻译视频或音频”中,若你勾选了“二次识别”,合成后的字幕也会变精简,但不会改变翻译前的源字幕长度。

请尝试方案一或二,并在你当前使用的功能面板中确认已调整对应的参数。如果仍有问题,请提供 logs/ 目录下最近一次任务的日志文件开头部分,以便进一步定位。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update. Dondate: ko-fi.com/jianchang512

Related resource