#5117 我不想二次LLM断句，关于语音识别，有没有推荐的参数

2a14:4900* Posted at: 1 month ago

我不想二次LLM断句，关于语音识别，有没有推荐的参数

Floor #1 DeepSeek reply at 1 month ago

参数	推荐值	说明
`rephrase`（在设置中表现为“LLM重新断句”）	0（或关闭）	关闭AI重新断句，使用默认断句
语音阈值	`0.5`	平衡语音检测灵敏度
最短持续时间/毫秒	`1000`	过短字幕合并到邻近（若不开合并，则用 `3000` 避免碎片）
最长语音持续时间/秒	`5`	避免长句被无意义分割
静音分割持续毫秒	`140~300`	越小切分越碎，越大句子越长；常用 `140`
合并过短字幕到邻近	勾选	将短于 `最短持续时间` 的字幕自动合并

请查阅相关文档：

Floor #2 2a14:4900* reply at 1 month ago

怎么每次的结果不一样啊，我记得上次说是高级选项：最长语音持续描述 7秒最短语音持续描述 2600 静音分割300 开启合并

Floor #3 DeepSeek reply at 1 month ago

语音识别参数没有“唯一正确”的数值，不同视频类型、不同语言、是否启用语音克隆，最佳参数会不同。你提到的“最长7秒/最短2600ms/静音分割300/开启合并”也是合理的配置，适合大部分场景。

若你追求稳定且效果均衡，以下为知识库FAQ 6推荐的通用参数（不启用LLM重新断句）：

参数	推荐值
语音阈值	0.5
最短持续时间/毫秒	3000
最长语音持续时间/秒	6
静音分割持续毫秒	140
合并过短字幕到邻近	勾选

如果使用语音克隆（clone角色），建议改为：

参数	推荐值
最短持续时间/毫秒	3000~4000
最长语音持续时间/秒	6~10
静音分割持续毫秒	140~300
合并过短字幕到邻近	勾选

参数差异的原因：

克隆时需要足够长的参考音频（3秒以上）才能稳定提取音色，短于3秒的片段容易报错或产生杂音。
静音分割值越小，字幕越碎，克隆时参考片段越短可能失败；值越大，句子越长，但克隆参考更充分。

你之前的设置（最长7s/最短2600ms/静音300）是可行的，如果遇到克隆报错，可以尝试将最短持续时间提高到3000以上，同时关闭“LLM重新断句”。

请查阅相关文档：

Floor #4 2a14:4900* reply at 1 month ago

开启二次LLM识别，效果提升多少

Floor #5 DeepSeek reply at 1 month ago

LLM 重新断句的效果提升高度依赖所使用的 AI 大模型本身的能力，并非一定优于默认断句。可能提升的地方：

修正语音识别中的错别字
重新切分过长的句子，让字幕更通顺
补充缺失标点，改善阅读体验

但也可能导致更差的结果：

AI 可能随意合并/拆分字幕行，导致翻译后的字幕行号对应错乱
时间轴被重排后，若使用 clone 语音克隆，从原始视频截取参考音频会因时间错位而出错
大模型生成的内容不可控，有时会丢字或添加无关文字

建议：

如果不使用 clone 音色，且视频为单语言长对话，可以开启 LLM 重新断句，配合 DeepSeek 或 ChatGPT 旗舰模型，通常能提升断句流畅度和正确率。
如果使用 clone 音色，请务必关闭 LLM 重新断句，并手动设置较短的最短持续时间（3000ms以上）和较长的最长持续时间（6~10s），同时勾选“合并过短字幕”。
最稳妥的方法是：每次只翻译一个视频，在语音识别结束后弹出的编辑窗口中手动调整断句和错别字。

效果提升幅度没有量化指标，建议在你自己的视频上分别测试开启与关闭两次，对比字幕质量后决定。

Floor #6 2a14:4900* reply at 1 month ago

怎么翻译的都是断句，如何解决这个问题，61
00:03:38,710 --> 00:03:44,290
切换到面选择模式，选中这个面，然后按
62
00:03:44,290 --> 00:03:45,910
键盘上的 E 键

Floor #7 DeepSeek reply at 1 month ago

你遇到的断句问题是正常的——软件按字幕行号严格1:1翻译，源字幕有多碎，翻译结果就有多碎。若你希望翻译后的字幕更连贯，核心是在语音识别阶段让源字幕变“长”，而不是靠翻译阶段合并。

以下是两种解决方案：

方案一：使用 LLM 重新断句（推荐，不改变源语言字幕行数合并）
在 菜单 → 工具 → 高级选项 → 语音识别参数 中，将 LLM断句（rephrase） 设为 开启，并选择一个合适的 AI 渠道（如 DeepSeek）。它将自动合并过短字幕、修正断句，使源字幕更连贯，翻译结果也会随之变长。
注意：此选项仅在“翻译视频或音频”主功能中有效，若使用“批量翻译 srt 字幕”面板，需先对源字幕文件单独使用 LLM 断句功能（主界面左侧“批量语音转字幕”面板中有“LLM重新断句”开关）。

方案二：调整 ASR 参数（不使用 LLM）
若你坚持不使用 LLM 重新断句，请调整以下参数（同样位于高级选项 → 语音识别参数）：

静音分割持续毫秒：增大到 600~1000，让模型在更长的静音后才切分，减少碎片。
最长语音持续时间秒：增大到 10~15，允许单条字幕更长。
最短持续时间/毫秒：设为 2000 以上，并勾选 合并过短字幕到邻近。

调整后重新执行语音识别（需先清理已生成的字幕缓存），产生的源字幕会更连续。

方案三：手动编辑源字幕后再翻译
如果不想重新识别，可以手动编辑已有的 SRT 文件，合并短行为长句，再导入翻译。

补充提示：若你使用的是“批量翻译 srt 字幕”面板，翻译结果无法自动合并行，唯一办法是让源字幕本身更连续。而在“翻译视频或音频”中，若你勾选了“二次识别”，合成后的字幕也会变精简，但不会改变翻译前的源字幕长度。

请尝试方案一或二，并在你当前使用的功能面板中确认已调整对应的参数。如果仍有问题，请提供 logs/ 目录下最近一次任务的日志文件开头部分，以便进一步定位。

#5117 我不想二次LLM断句，关于语音识别，有没有推荐的参数

7 Replies

推荐参数（关闭 LLM 重新断句）

请查阅相关文档：

请查阅相关文档：

Post Your Reply

Related resource