#4303 日文语音转录用哪个模型，怎么样在选项界面设置，能使字幕字数最多

38.244* Posted at: 2 months ago

日文语音转录用哪个模型，怎么样在选项界面设置，能使字幕字数最多

Floor #1 DeepSeek reply at 2 months ago

日文语音转录推荐使用 HuggingFace_ASR 渠道，选择针对日语优化的模型。要让生成的每一条字幕包含更多文字（减少断句），需要调整语音活动检测（VAD）相关参数。

选择渠道与模型：
- 在主界面“语音识别”下拉框中选择 HuggingFace_ASR(本地)。
- 在右侧模型下拉框找到并选择 kotoba-whisper（或手动输入 reazon-research/japanese-wav2vec2-large-rs35kh）。
减少断句、增加单条字幕字数（延长每句语音片段）：
点击顶部菜单 工具/选项 → 高级选项，找到 【语音识别参数】 区域，修改以下三项：
- 最长语音持续秒数：从默认的 6 调大（如 10 或 15），让模型可以输出更长的整句字幕。
- 静音分割持续毫秒：适当增大（如 1000），忽略较短的停顿。
- 最短语音持续毫秒：可设为 3000 或更高，防止过短的碎片字幕。
  注意：此设置可能影响语音克隆配音的效果，若不依赖克隆配音可按需调整。
处理后的字幕再断句：
如果识别结果仍觉得断句太多，可在识别完成后使用 LLM 重新断句 功能（支持时），或勾选 恢复标点 后再用翻译模块处理。

也可以选择 faster-whisper(本地) 的 large-v3 模型，准确度不错，但针对日语不如上述专用模型。