#4332 最短语音持续毫秒3000,最长语音持续秒数10,静音分割持续毫秒140,这个配置可以使语音识别出的句子都是完整的,但每行字幕会很长,有没有什么方法,比如通过提示词,将识别出的原始字幕可以按标点断句?

2409:8a55* Posted at: 22 days ago 👁107

最短语音持续毫秒3000,最长语音持续秒数10,静音分割持续毫秒140,这个配置可以使语音识别出的句子都是完整的,但每行字幕会很长,有没有什么方法,比如通过提示词,将识别出的原始字幕可以按标点断句?

6 Replies

识别出的单行字幕过长,根本原因是语音检测时合并了较长片段。直接通过 Whisper 的提示词很难实现按标点断句,但可以利用软件内置的“恢复标点”和“LLM 重新断句”功能来实现。

解决方案

  1. 先恢复标点
    勾选主界面下方的 恢复标点 选项(在“设置更多参数”中可见)。这会让模型在识别后尝试给文字添加标点符号,为后续断句提供依据。
  2. 启用 LLM 重新断句
    在顶部菜单 工具/选项 → 高级选项 中找到“LLM重新断句”相关设置:

    • LLM重新断句每批字幕行数 设为合适的值(如 20)。
    • 选择 LLM重新断句所用AI渠道(需要先配置好一个支持大模型翻译的渠道,如 DeepSeek、OpenAI 等)。
      这样软件会将识别出的字幕分批发送给大模型,让 AI 根据标点和语义重新分割句子。
  3. 微调语音识别参数
    如果不想依赖 LLM,可以尝试降低 最长语音持续秒数(例如从 10 秒改为 5~6 秒),同时将 静音分割持续毫秒 调小(如 100 ms),这样 VAD 分割会更敏感,生成的句子自然变短。但可能会牺牲完整性,需要权衡。
  4. 克隆配音场景的注意点
    如果你后续要使用 clone 角色进行声音克隆,字幕时长需保持在 3~10 秒之间。开启 LLM 重新断句后,仍然建议将 最短语音持续毫秒 设为 3000,最长语音持续秒数 设为 10,并勾选 Whisper预分割音频合并过短字幕到相邻,以确保配音素材的时长符合要求。

请查阅相关文档:

LLM重新断句有没有提示词设置?

软件目前未提供独立的 LLM 重新断句提示词自定义设置入口。该功能使用的是内置的断句指令,用户无法直接修改。

不过你可以通过以下方式间接影响断句效果:

  1. 选择合适的 AI 渠道:确保在 工具/选项 → 高级选项 中配置的“LLM 重新断句所用 AI 渠道”足够智能(如 DeepSeek-V3、GPT-4 等),模型的理解能力越强,断句越合理。
  2. 调整每批行数:增大“LLM 重新断句每批字幕行数”(例如设为 20 或更高),让模型在一次请求中看到更多上下文,有助于语义层面的准确切分。
  3. 若要全局调整翻译提示词,可参考软件目录下的 prompts 文件夹,但那主要影响的是字幕翻译阶段的提示词,对重新断句可能无效。

若你对效果依然不满意,建议在“新版本发布后”留意更新日志,看是否会增加该选项。

打开软件目录/videotrans/prompts/recharge/recharge-llm.txt 可自行修改LLM重新短句提示词,修改前自行备份。

重新短句效果完全依赖于使用的模型智能

Deepseek的V4之后,LLM重新断句怎么这么慢了

导致 LLM 重新断句变慢,通常是因为模型请求耗时增加,与 DeepSeek V4 模型本身推理速度、你的请求并发数或网络延迟有关。可以尝试以下方法:

  1. 降低每批字幕行数:在 工具/选项 → 高级选项 中调低 LLM重新断句每批字幕行数(例如从 20 调至 10 或 5),减少单次请求长度,加快单批处理速度。
  2. 限制翻译并发:检查 翻译后暂停秒数并发翻译线程数高级选项 → 字幕翻译调整),适当增加暂停时间(如 1-2 秒)或降低并发,避免触发 API 的速率限制导致额外重试延迟。
  3. 切换模型或渠道:如果持续缓慢,可能是该模型端点负载高,可以在 DeepSeek 平台换用其他模型(如 V3),或在软件中临时改用其他快速 AI 渠道。
  4. 使用更高效提示词:按开发者指引修改 recharge-llm.txt 中的断句提示词,去掉不必要的冗长示例,精简指令,但修改前务必备份原文件。

如果只是偶尔慢,也可能只是网络波动,稍后重试即可。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource