#5117 我不想二次LLM断句,关于语音识别,有没有推荐的参数

2a14:4900* Posted at: 2 hours ago

我不想二次LLM断句,关于语音识别,有没有推荐的参数

5 Replies

推荐参数(关闭 LLM 重新断句)

菜单 → 工具 → 高级选项 → 语音识别参数 中进行以下调整,可显著改善断句效果且不启用二次LLM处理:

参数推荐值说明
rephrase(在设置中表现为“LLM重新断句”)0(或关闭)关闭AI重新断句,使用默认断句
语音阈值0.5平衡语音检测灵敏度
最短持续时间/毫秒1000过短字幕合并到邻近(若不开合并,则用 3000 避免碎片)
最长语音持续时间/秒5避免长句被无意义分割
静音分割持续毫秒140~300越小切分越碎,越大句子越长;常用 140
合并过短字幕到邻近勾选将短于 最短持续时间 的字幕自动合并

如果使用 clone 语音克隆音色,建议改为:

  • 最短持续时间:3000
  • 最长语音持续时间:6~10
  • 关闭“LLM重新断句”

识别渠道建议

  • 中文:优先选择 Qwen-ASR(本地)字节语音大模型极速版阿里FunASR+paraformer-zh
  • 英文/其他:faster-whisper(本地) + large-v3openai-whisper + large-v3

额外提升

  • 若视频背景嘈杂,在主界面勾选 降噪分离人声背景声
  • 每次只翻译一个视频(单视频模式)会在识别后弹出编辑框,可手动校验断句。

请查阅相关文档:

怎么每次的结果不一样啊,我记得上次说是高级选项: 最长语音持续描述 7秒 最短语音持续描述 2600 静音分割300 开启合并

语音识别参数没有“唯一正确”的数值,不同视频类型、不同语言、是否启用语音克隆,最佳参数会不同。你提到的“最长7秒/最短2600ms/静音分割300/开启合并”也是合理的配置,适合大部分场景。

若你追求稳定且效果均衡,以下为知识库FAQ 6推荐的通用参数(不启用LLM重新断句):

参数推荐值
语音阈值0.5
最短持续时间/毫秒3000
最长语音持续时间/秒6
静音分割持续毫秒140
合并过短字幕到邻近勾选

如果使用语音克隆(clone角色),建议改为:

参数推荐值
最短持续时间/毫秒3000~4000
最长语音持续时间/秒6~10
静音分割持续毫秒140~300
合并过短字幕到邻近勾选

参数差异的原因:

  • 克隆时需要足够长的参考音频(3秒以上)才能稳定提取音色,短于3秒的片段容易报错或产生杂音。
  • 静音分割值越小,字幕越碎,克隆时参考片段越短可能失败;值越大,句子越长,但克隆参考更充分。

你之前的设置(最长7s/最短2600ms/静音300)是可行的,如果遇到克隆报错,可以尝试将最短持续时间提高到3000以上,同时关闭“LLM重新断句”。

请查阅相关文档:

开启二次LLM识别,效果提升多少

LLM 重新断句的效果提升高度依赖所使用的 AI 大模型本身的能力,并非一定优于默认断句。可能提升的地方:

  • 修正语音识别中的错别字
  • 重新切分过长的句子,让字幕更通顺
  • 补充缺失标点,改善阅读体验

也可能导致更差的结果

  • AI 可能随意合并/拆分字幕行,导致翻译后的字幕行号对应错乱
  • 时间轴被重排后,若使用 clone 语音克隆,从原始视频截取参考音频会因时间错位而出错
  • 大模型生成的内容不可控,有时会丢字或添加无关文字

建议

  1. 如果不使用 clone 音色,且视频为单语言长对话,可以开启 LLM 重新断句,配合 DeepSeek 或 ChatGPT 旗舰模型,通常能提升断句流畅度和正确率。
  2. 如果使用 clone 音色,请务必关闭 LLM 重新断句,并手动设置较短的最短持续时间(3000ms以上)和较长的最长持续时间(6~10s),同时勾选“合并过短字幕”。
  3. 最稳妥的方法是:每次只翻译一个视频,在语音识别结束后弹出的编辑窗口中手动调整断句和错别字。

效果提升幅度没有量化指标,建议在你自己的视频上分别测试开启与关闭两次,对比字幕质量后决定。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update. Dondate: ko-fi.com/jianchang512

Related resource