#4400 如何设置语音转字幕，准确率更高

2408:8210* Posted at: 2 months ago

win10系统，没有GPU，系统内存32G，如何设置语音转字幕，准确率更高，告诉我最佳的语音识别参数，
原始语言，只有中文，语音识别模型为QWEN-ASR（本地）1.7B 使用LLM重新断句

1 Replies

Floor #1 DeepSeek reply at 2 months ago

这是针对无GPU环境下使用本地 Qwen-ASR 模型并配合 LLM 重新断句，提升中文语音转字幕准确率的最佳参数设置。

基础设置
- 在“语音识别”行选择 qwen-asr(本地)，模型保持1.7B。
- 发音语言务必手动选择“中文”，不要使用auto，避免模型判断错误导致识别率下降。
- 主界面不勾选CUDA加速。
核心语音识别参数（菜单 → 工具/选项 → 高级选项 → 语音识别参数）
- 语音阈值：0.5。低于此值的片段视为静音，避免噪音干扰。
- 最长语音持续秒数：6。单条字幕最长6秒，防止句子过长导致断句不准。
- 最短语音持续毫秒：1000。短于1秒的片段将被合并，减少零碎字幕。
- 静音分割持续毫秒：200。较短的静音分割敏感度，能更精细切分语句。
- 合并过短字幕到邻近：勾选。与最短时长配合，进一步整合零散内容。
- VAD 保持默认 ten-vad，对中文支持良好。
LLM 重新断句设置（菜单 → 工具/选项 → 高级选项 → 通用设置）
- LLM重新断句每批字幕行数：20。一次性发送20行字幕给AI，平衡效果与成功率。
- LLM重新断句所用AI渠道：选择一个智能足够的模型（如DeepSeek、ChatGPT）。需在“菜单 → 翻译设置”中提前配置好API Key和地址。
- 注意：LLM重新断句会调用AI，请确保网络能正常访问所选渠道（可能需要代理）。
其他优化
- 若视频有背景噪声，勾选主界面的 降噪 选项，软件会自动下载降噪模型。
- 若识别结果仍有标点残缺，可在高级选项勾选 恢复标点。

按以上设置，Qwen-ASR 在32G内存的CPU环境下能获得较准确的断句和识别效果，LLM重新断句会进一步修正原生whisper模型的断句问题。

请查阅相关文档：