#4332 最短语音持续毫秒3000，最长语音持续秒数10，静音分割持续毫秒140，这个配置可以使语音识别出的句子都是完整的，但每行字幕会很长，有没有什么方法，比如通过提示词，将识别出的原始字幕可以按标点断句？

2409:8a55* Posted at: 22 days ago 👁107

最短语音持续毫秒3000，最长语音持续秒数10，静音分割持续毫秒140，这个配置可以使语音识别出的句子都是完整的，但每行字幕会很长，有没有什么方法，比如通过提示词，将识别出的原始字幕可以按标点断句？

Floor #1 DeepSeek reply at 22 days ago

识别出的单行字幕过长，根本原因是语音检测时合并了较长片段。直接通过 Whisper 的提示词很难实现按标点断句，但可以利用软件内置的“恢复标点”和“LLM 重新断句”功能来实现。

先恢复标点
勾选主界面下方的 恢复标点 选项（在“设置更多参数”中可见）。这会让模型在识别后尝试给文字添加标点符号，为后续断句提供依据。
启用 LLM 重新断句
在顶部菜单 工具/选项 → 高级选项 中找到“LLM重新断句”相关设置：
- 将 LLM重新断句每批字幕行数 设为合适的值（如 20）。
- 选择 LLM重新断句所用AI渠道（需要先配置好一个支持大模型翻译的渠道，如 DeepSeek、OpenAI 等）。
  这样软件会将识别出的字幕分批发送给大模型，让 AI 根据标点和语义重新分割句子。
微调语音识别参数
如果不想依赖 LLM，可以尝试降低 最长语音持续秒数（例如从 10 秒改为 5~6 秒），同时将 静音分割持续毫秒 调小（如 100 ms），这样 VAD 分割会更敏感，生成的句子自然变短。但可能会牺牲完整性，需要权衡。
克隆配音场景的注意点
如果你后续要使用 clone 角色进行声音克隆，字幕时长需保持在 3~10 秒之间。开启 LLM 重新断句后，仍然建议将 最短语音持续毫秒 设为 3000，最长语音持续秒数 设为 10，并勾选 Whisper预分割音频、合并过短字幕到相邻，以确保配音素材的时长符合要求。

Floor #2 2409:8a55* reply at 22 days ago

LLM重新断句有没有提示词设置？

Floor #3 DeepSeek reply at 22 days ago

软件目前未提供独立的 LLM 重新断句提示词自定义设置入口。该功能使用的是内置的断句指令，用户无法直接修改。

不过你可以通过以下方式间接影响断句效果：

选择合适的 AI 渠道：确保在 工具/选项 → 高级选项 中配置的“LLM 重新断句所用 AI 渠道”足够智能（如 DeepSeek-V3、GPT-4 等），模型的理解能力越强，断句越合理。
调整每批行数：增大“LLM 重新断句每批字幕行数”（例如设为 20 或更高），让模型在一次请求中看到更多上下文，有助于语义层面的准确切分。
若要全局调整翻译提示词，可参考软件目录下的 prompts 文件夹，但那主要影响的是字幕翻译阶段的提示词，对重新断句可能无效。

若你对效果依然不满意，建议在“新版本发布后”留意更新日志，看是否会增加该选项。

Floor #4 Admin reply at 22 days ago

打开软件目录/videotrans/prompts/recharge/recharge-llm.txt 可自行修改LLM重新短句提示词，修改前自行备份。

重新短句效果完全依赖于使用的模型智能

Floor #5 2409:8a55* reply at 16 days ago

Deepseek的V4之后，LLM重新断句怎么这么慢了

Floor #6 DeepSeek reply at 16 days ago

导致 LLM 重新断句变慢，通常是因为模型请求耗时增加，与 DeepSeek V4 模型本身推理速度、你的请求并发数或网络延迟有关。可以尝试以下方法：

降低每批字幕行数：在 工具/选项 → 高级选项 中调低 LLM重新断句每批字幕行数（例如从 20 调至 10 或 5），减少单次请求长度，加快单批处理速度。
限制翻译并发：检查 翻译后暂停秒数 和 并发翻译线程数（高级选项 → 字幕翻译调整），适当增加暂停时间（如 1-2 秒）或降低并发，避免触发 API 的速率限制导致额外重试延迟。
切换模型或渠道：如果持续缓慢，可能是该模型端点负载高，可以在 DeepSeek 平台换用其他模型（如 V3），或在软件中临时改用其他快速 AI 渠道。
使用更高效提示词：按开发者指引修改 recharge-llm.txt 中的断句提示词，去掉不必要的冗长示例，精简指令，但修改前务必备份原文件。

如果只是偶尔慢，也可能只是网络波动，稍后重试即可。