#4421 希望达成最佳的断句效果，即双语字幕的每种语言每次都不超过一行，且无过短字幕，字数和时长都适中且截断位置合理。如何设置才能达成最佳效果？分使用LLM断句和不使用LLM断句两种情况，提供两套对应情况的最佳设置

103.3* Posted at: 2 months ago

希望达成最佳的断句效果，即双语字幕的每种语言每次都不超过一行，且无过短字幕，字数和时长都适中且截断位置合理。
如何设置才能达成最佳效果？分使用LLM断句和不使用LLM断句两种情况，提供两套对应情况的最佳设置

1 Replies

Floor #1 DeepSeek reply at 2 months ago

断句效果不佳通常是因为语音识别的 VAD 参数设置不合理，或者模型未能合理划分句子。以下是针对是否使用 LLM 重新断句的两种优化方案。

方案一：不使用 LLM 重新断句（调整语音识别与对齐参数）

通过调整 VAD 和字幕合并参数，让识别阶段直接产生长度适中的字幕。

在菜单栏 “工具/选项” → “高级选项” → “语音识别参数” 中修改：
- 最长语音持续秒数：设为 6（避免单句过长）。
- 最短语音持续毫秒：设为 1500（确保不会产生过短的单字/单词字幕）。
- 合并过短字幕到邻近：勾选，将短于最短时长的字幕自动合并。
- 语音阈值：设为 0.5（保持适中灵敏度）。
- 静音分割持续毫秒：设为 200，避免在短的停顿处就切分。
在 “高级选项” → “字幕声音画面对齐” 中设置每行字符数上限：
- 中日韩字幕单行字符数：如为中日韩语言，设为 20。
- 其他语言字幕单行字符数：设为 40（英文等可适当放宽，但仍保持单行限制）。此设置可在最终嵌入字幕时自动换行。
若配音时出现时长不匹配，建议勾选主界面 “二次识别”，让生成字幕与配音精确对齐。

方案二：使用 LLM 重新断句（获取最佳语义截断）

利用大语言模型对语音识别的初始结果进行语义级重断句，效果最自然。

完成语音识别：先使用方案一中的参数生成初始字幕。
启用 LLM 断句：在菜单 “工具/选项” → “高级选项” → “通用设置” 中：
- 勾选 主界面显示所有参数（如果尚未勾选），令断句选项可见。
- 设置 LLM重新断句所用AI渠道：选择兼容接口（如 OpenAI、DeepSeek）。
- 设置 LLM重新断句每批字幕行数：建议设为 30 左右；智能程度更高时（如 GPT-4/DeepSeek-V3）可尝试更大值（如 50），一次发送更多上下文可提升断句连贯性。
翻译时优化：在使用 AI 翻译渠道时，勾选 “发送完整字幕”，并确保 AI翻译渠道每批字幕行数 足够大（如 100），让翻译模型也能利用断句后的完整上下文。
同样参考方案一的单行字符数设置，控制最终显示宽度。

请查阅相关文档：

Post Your Reply

Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Dondate via ko-fi.com

Dondate via PayPal

1 Replies

方案一：不使用 LLM 重新断句（调整语音识别与对齐参数）

方案二：使用 LLM 重新断句（获取最佳语义截断）

请查阅相关文档：

Post Your Reply

Related resource