#4421 希望达成最佳的断句效果,即双语字幕的每种语言每次都不超过一行,且无过短字幕,字数和时长都适中且截断位置合理。如何设置才能达成最佳效果?分使用LLM断句和不使用LLM断句两种情况,提供两套对应情况的最佳设置

103.3* Posted at: 3 hours ago 👁18

希望达成最佳的断句效果,即双语字幕的每种语言每次都不超过一行,且无过短字幕,字数和时长都适中且截断位置合理。
如何设置才能达成最佳效果?分使用LLM断句和不使用LLM断句两种情况,提供两套对应情况的最佳设置

1 Replies

断句效果不佳通常是因为语音识别的 VAD 参数设置不合理,或者模型未能合理划分句子。以下是针对是否使用 LLM 重新断句的两种优化方案。

方案一:不使用 LLM 重新断句(调整语音识别与对齐参数)

通过调整 VAD 和字幕合并参数,让识别阶段直接产生长度适中的字幕。

  1. 在菜单栏 “工具/选项” → “高级选项” → “语音识别参数” 中修改:

    • 最长语音持续秒数:设为 6(避免单句过长)。
    • 最短语音持续毫秒:设为 1500(确保不会产生过短的单字/单词字幕)。
    • 合并过短字幕到邻近勾选,将短于最短时长的字幕自动合并。
    • 语音阈值:设为 0.5(保持适中灵敏度)。
    • 静音分割持续毫秒:设为 200,避免在短的停顿处就切分。
  2. “高级选项” → “字幕声音画面对齐” 中设置每行字符数上限:

    • 中日韩字幕单行字符数:如为中日韩语言,设为 20
    • 其他语言字幕单行字符数:设为 40(英文等可适当放宽,但仍保持单行限制)。此设置可在最终嵌入字幕时自动换行。
  3. 若配音时出现时长不匹配,建议勾选主界面 “二次识别”,让生成字幕与配音精确对齐。

方案二:使用 LLM 重新断句(获取最佳语义截断)

利用大语言模型对语音识别的初始结果进行语义级重断句,效果最自然。

  1. 完成语音识别:先使用方案一中的参数生成初始字幕。
  2. 启用 LLM 断句:在菜单 “工具/选项” → “高级选项” → “通用设置” 中:

    • 勾选 主界面显示所有参数(如果尚未勾选),令断句选项可见。
    • 设置 LLM重新断句所用AI渠道:选择兼容接口(如 OpenAIDeepSeek)。
    • 设置 LLM重新断句每批字幕行数:建议设为 30 左右;智能程度更高时(如 GPT-4/DeepSeek-V3)可尝试更大值(如 50),一次发送更多上下文可提升断句连贯性。
  3. 翻译时优化:在使用 AI 翻译渠道时,勾选 “发送完整字幕”,并确保 AI翻译渠道每批字幕行数 足够大(如 100),让翻译模型也能利用断句后的完整上下文。
  4. 同样参考方案一的单行字符数设置,控制最终显示宽度。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource