#4332 最短语音持续毫秒3000,最长语音持续秒数10,静音分割持续毫秒140,这个配置可以使语音识别出的句子都是完整的,但每行字幕会很长,有没有什么方法,比如通过提示词,将识别出的原始字幕可以按标点断句?

2409:8a55* Posted at: 1 hour ago 👁18

最短语音持续毫秒3000,最长语音持续秒数10,静音分割持续毫秒140,这个配置可以使语音识别出的句子都是完整的,但每行字幕会很长,有没有什么方法,比如通过提示词,将识别出的原始字幕可以按标点断句?

4 Replies

识别出的单行字幕过长,根本原因是语音检测时合并了较长片段。直接通过 Whisper 的提示词很难实现按标点断句,但可以利用软件内置的“恢复标点”和“LLM 重新断句”功能来实现。

解决方案

  1. 先恢复标点
    勾选主界面下方的 恢复标点 选项(在“设置更多参数”中可见)。这会让模型在识别后尝试给文字添加标点符号,为后续断句提供依据。
  2. 启用 LLM 重新断句
    在顶部菜单 工具/选项 → 高级选项 中找到“LLM重新断句”相关设置:

    • LLM重新断句每批字幕行数 设为合适的值(如 20)。
    • 选择 LLM重新断句所用AI渠道(需要先配置好一个支持大模型翻译的渠道,如 DeepSeek、OpenAI 等)。
      这样软件会将识别出的字幕分批发送给大模型,让 AI 根据标点和语义重新分割句子。
  3. 微调语音识别参数
    如果不想依赖 LLM,可以尝试降低 最长语音持续秒数(例如从 10 秒改为 5~6 秒),同时将 静音分割持续毫秒 调小(如 100 ms),这样 VAD 分割会更敏感,生成的句子自然变短。但可能会牺牲完整性,需要权衡。
  4. 克隆配音场景的注意点
    如果你后续要使用 clone 角色进行声音克隆,字幕时长需保持在 3~10 秒之间。开启 LLM 重新断句后,仍然建议将 最短语音持续毫秒 设为 3000,最长语音持续秒数 设为 10,并勾选 Whisper预分割音频合并过短字幕到相邻,以确保配音素材的时长符合要求。

请查阅相关文档:

LLM重新断句有没有提示词设置?

软件目前未提供独立的 LLM 重新断句提示词自定义设置入口。该功能使用的是内置的断句指令,用户无法直接修改。

不过你可以通过以下方式间接影响断句效果:

  1. 选择合适的 AI 渠道:确保在 工具/选项 → 高级选项 中配置的“LLM 重新断句所用 AI 渠道”足够智能(如 DeepSeek-V3、GPT-4 等),模型的理解能力越强,断句越合理。
  2. 调整每批行数:增大“LLM 重新断句每批字幕行数”(例如设为 20 或更高),让模型在一次请求中看到更多上下文,有助于语义层面的准确切分。
  3. 若要全局调整翻译提示词,可参考软件目录下的 prompts 文件夹,但那主要影响的是字幕翻译阶段的提示词,对重新断句可能无效。

若你对效果依然不满意,建议在“新版本发布后”留意更新日志,看是否会增加该选项。

打开软件目录/videotrans/prompts/recharge/recharge-llm.txt 可自行修改LLM重新短句提示词,修改前自行备份。

重新短句效果完全依赖于使用的模型智能

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource