#4400 如何设置语音转字幕,准确率更高

2408:8210* Posted at: 5 hours ago 👁9

win10系统,没有GPU,系统内存32G,如何设置语音转字幕,准确率更高,告诉我最佳的语音识别参数,
原始语言,只有中文,语音识别模型为QWEN-ASR(本地)1.7B 使用LLM重新断句

1 Replies

这是针对无GPU环境下使用本地 Qwen-ASR 模型并配合 LLM 重新断句,提升中文语音转字幕准确率的最佳参数设置。

  1. 基础设置

    • 在“语音识别”行选择 qwen-asr(本地),模型保持1.7B。
    • 发音语言务必手动选择“中文”,不要使用auto,避免模型判断错误导致识别率下降。
    • 主界面不勾选CUDA加速
  2. 核心语音识别参数(菜单 → 工具/选项 → 高级选项 → 语音识别参数)

    • 语音阈值0.5。低于此值的片段视为静音,避免噪音干扰。
    • 最长语音持续秒数6。单条字幕最长6秒,防止句子过长导致断句不准。
    • 最短语音持续毫秒1000。短于1秒的片段将被合并,减少零碎字幕。
    • 静音分割持续毫秒200。较短的静音分割敏感度,能更精细切分语句。
    • 合并过短字幕到邻近:勾选。与最短时长配合,进一步整合零散内容。
    • VAD 保持默认 ten-vad,对中文支持良好。
  3. LLM 重新断句设置(菜单 → 工具/选项 → 高级选项 → 通用设置)

    • LLM重新断句每批字幕行数20。一次性发送20行字幕给AI,平衡效果与成功率。
    • LLM重新断句所用AI渠道:选择一个智能足够的模型(如DeepSeek、ChatGPT)。需在“菜单 → 翻译设置”中提前配置好API Key和地址。
    • 注意:LLM重新断句会调用AI,请确保网络能正常访问所选渠道(可能需要代理)。
  4. 其他优化

    • 若视频有背景噪声,勾选主界面的 降噪 选项,软件会自动下载降噪模型。
    • 若识别结果仍有标点残缺,可在高级选项勾选 恢复标点

按以上设置,Qwen-ASR 在32G内存的CPU环境下能获得较准确的断句和识别效果,LLM重新断句会进一步修正原生whisper模型的断句问题。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource