#4303 日文语音转录用哪个模型,怎么样在选项界面设置,能使字幕字数最多

38.244* Posted at: 3 hours ago 👁13

日文语音转录用哪个模型,怎么样在选项界面设置,能使字幕字数最多

1 Replies

日文语音转录推荐使用 HuggingFace_ASR 渠道,选择针对日语优化的模型。要让生成的每一条字幕包含更多文字(减少断句),需要调整语音活动检测(VAD)相关参数。

推荐模型

  • 免费本地模型HuggingFace_ASR → 选择 kotoba-whisper(专为日语设计的 Whisper 微调模型)或 reazon-research/japanese-wav2vec2-large-rs35kh
  • 收费模型(更准确):OpenAI 语音识别 API 或 Gemini 大模型识别。

设置步骤(以免费模型为例)

  1. 选择渠道与模型

    • 在主界面“语音识别”下拉框中选择 HuggingFace_ASR(本地)
    • 在右侧模型下拉框找到并选择 kotoba-whisper(或手动输入 reazon-research/japanese-wav2vec2-large-rs35kh)。
  2. 减少断句、增加单条字幕字数(延长每句语音片段):
    点击顶部菜单 工具/选项高级选项,找到 【语音识别参数】 区域,修改以下三项:

    • 最长语音持续秒数:从默认的 6 调大(如 1015),让模型可以输出更长的整句字幕。
    • 静音分割持续毫秒:适当增大(如 1000),忽略较短的停顿。
    • 最短语音持续毫秒:可设为 3000 或更高,防止过短的碎片字幕。

      注意:此设置可能影响语音克隆配音的效果,若不依赖克隆配音可按需调整。
  3. 处理后的字幕再断句
    如果识别结果仍觉得断句太多,可在识别完成后使用 LLM 重新断句 功能(支持时),或勾选 恢复标点 后再用翻译模块处理。

若使用 faster-whisper 模型

也可以选择 faster-whisper(本地)large-v3 模型,准确度不错,但针对日语不如上述专用模型。

相关文档

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource