#820 日语用哪个模型做语音识别比较好？

120.235* Posted at: 9 months ago

用了faster-whisper的large v2/v3-turbo，效果都不怎么好。经常断句有问题或者丢了语音。

1 Replies

Floor #1 0.0* reply at 9 months ago

本条内容由 DeepSeek 回复

从你的描述来看，你遇到了faster-whisper模型在语音识别时断句效果不佳和漏识别的问题。这通常与语音分割参数设置有关，可以通过调整高级选项中的VAD参数来改善。

解决方案：

1. 进入高级设置

点击软件菜单栏的"工具" → "高级选项"

2. 调整VAD参数

找到"faster/openai语音识别调整"部分
建议将以下参数调整为：
语音阈值：设为 0.5
最短语音持续时间/毫秒：设为 0
最大语音持续时间/秒：设为 5
静音分隔毫秒：设为 140
语音填充：设为 0

3. 其他优化建议

确保使用"整体识别"模式而非"均等分割"，整体识别效果更好
如果视频较长，可以尝试先分离音频，然后使用独立的"批量语音识别与转录"功能
在嘈杂环境下录制的视频，识别效果会受到影响

这些调整能让语音分割更精确，减少断句错误和漏识别的情况。如果问题依然存在，建议提供具体的错误日志（位于软件目录下videotrans/logs/文件夹中），以便进一步分析。