#736 语音识别中文字幕哪个模型的效果是独具一格的

82.117* Posted at: 2 months ago 👁102

用了faster-whisper本地模式medium模型，中文语音转中文字幕，发现几个问题，1:会出现漏文本的情况，就是中间会有语音未识别到文本，2:中文里带了英文的一些单词，识别出来的英文单词是错误的！

1 Replies

Floor #1 0.0* Posted at 2 months ago

本条内容由 DeepSeek 回复

你遇到的问题（漏识别和英文单词识别错误）在使用 faster-whisper 的 medium 模型时是比较常见的，主要原因是 medium 模型规模相对较小，对复杂语音和混合语言的处理能力有限。以下是具体的分析和优化建议：

问题原因分析：

1. 漏识别文本：通常是由于语音中的静音区间设置不当，导致模型将较短的语音片段或语速较快的部分误判为静音而忽略。

2. 英文单词识别错误：faster-whisper 的中文模型主要针对中文优化，对中英混合语音中的英文支持较弱，容易将英文单词误识别为发音相似的中文。

优化建议与步骤：

1. 升级模型：

首选方案：将模型从 medium 升级到 large-v3。large-v3 模型具有更强的语音识别能力和更好的中英混合识别效果，能显著减少漏识别和英文错误。
注意：large-v3 模型更大，需要更多显存/内存和计算时间。如果硬件条件有限，可尝试 large-v2。

2. 调整高级设置（关键步骤）：

打开软件，点击顶部菜单栏的工具 -> 高级选项。
找到 faster/openai语音识别调整 区域，进行如下修改：
语音阈值 (voice_threshold)：设置为 0.5（降低此值可使模型对微弱语音更敏感）。
最短持续时间/毫秒 (min_silence_duration_ms)：设置为 0（避免因静音时长判断而过早切断语音）。
最大语音持续时间/秒 (max_speech_duration_s)：设置为 5（限制单句字幕长度，避免过长句子导致识别错误）。
静音分隔毫秒 (vad_split_interval)：设置为 140（减小静音分割间隔，使断句更细致）。
语音填充 (vad_padding)：设置为 0（减少静音填充，避免引入多余空白）。
修改后效果如图所示：

高级设置修改示例

3. 确保使用“整体识别”模式：

在语音识别设置中，确认选择了 整体识别（而非“均等分割”）。整体识别由模型内部进行更精细的静音检测和断句，通常效果更好。

4. （可选）尝试其他识别渠道：

如果上述调整后问题依然存在，可以考虑使用对中文优化更好的识别渠道，例如：
阿里FunASR中文识别：专门针对中文语音优化，对中英混合的支持也可能更好。
字节火山字幕生成：同样对中文有较好的识别效果。

总结：

建议你优先尝试 升级模型到 large-v3 并 按照上述参数调整高级设置，这应该能显著改善漏识别和英文单词错误的问题。如果仍有困难，可以参考软件文档 pyvideotrans.com 或在此帖中补充更详细的信息（如使用的软件版本、操作系统等）。

Post Your Reply

Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

#736 语音识别中文字幕哪个模型的效果是独具一格的

1 Replies

Post Your Reply

Trending Questions

【这样设置,才能取得最佳断句效果-faster-whisper语音识别！】... 💬11 👁1128

翻译断句过长，全屏字幕问题... 💬3 👁687

【faster-whisper模式】下载模型失败解决办法... 💬1 👁656

ImportError: cannot import name 'Sentinel' from 'typing_extensions' (/home/Timoshenko/miniconda3/lib... 💬1 👁556

语音转字幕问题... 💬8 👁529

edge_tts.exceptions.NoAudioReceived: No audio was received. Please verify that your parameters are correct.... 💬1 👁514

大佬帮帮忙，总是到结尾出现这样，不知道哪里出了问题... 💬1 👁469

助力项目持续维护... 💬0 👁460

RuntimeError: Data processing error: CAS service error : Reqwest Error: HTTP status client error (401 Unauthorized), dom... 💬2 👁444

识别语音设置怎么感觉没用啊... 💬4 👁434

翻译字幕阶段出错:Traceback (most recent call last): File "videotrans\translator\_base.py", line 77, in run File "... 💬1 👁413

翻译钢铁侠2，使用批量翻译srt，中间有字幕没有翻译，同时出现把参数显示出来了。... 💬1 👁403

2025-09-10 11:09:02,333 - VideoTrans - ERROR - FFmpeg 命令执行失败 (force_cpu=True)。命令: ffmpeg -hide_banner -ignore_unknown -... 💬11 👁398

声画不同步的问题... 💬2 👁387

{'code': 6, 'msg': 'CUDA error: no kernel image is available for execution on the device\nCUDA ... 💬12 👁375

Unable to open file 'model.bin' in model 'C:/Users/wujin/Desktop/win-videotrans-v3.78-0821/models\models-... 💬3 👁370

Unable to open file 'model.bin' in model 'D:/BaiduNetdiskDownload/win-videotrans-v3.78-0821/models\models... 💬1 👁356

_process:cuBLAS failed with status CUBLAS_STATUS_NOT_SUPPORTED:FasterAll... 💬1 👁343

('400 Client Error: Bad Request for url: http://127.0.0.1:9880/tts?text=%E5%91%83%2C%E5%85%B6%E5%AE%9E%E6%9C%AC%E6%... 💬1 👁342

videotrans.configure._except.TranslateSrtError: Request triggered 429, please increase the pause time: Error code: 429 -... 💬3 👁339

#736 语音识别中文字幕哪个模型的效果是独具一格的

1 Replies

Post Your Reply

Trending Questions

【这样设置,才能取得最佳断句效果-faster-whisper语音识别！】... 💬11 👁1128

翻译断句过长，全屏字幕问题... 💬3 👁687

【faster-whisper模式】下载模型失败解决办法... 💬1 👁656

ImportError: cannot import name 'Sentinel' from 'typing_extensions' (/home/Timoshenko/miniconda3/lib... 💬1 👁556

语音转字幕问题... 💬8 👁529

edge_tts.exceptions.NoAudioReceived: No audio was received. Please verify that your parameters are correct.... 💬1 👁514

大佬帮帮忙，总是到结尾出现这样，不知道哪里出了问题... 💬1 👁469

助力项目持续维护... 💬0 👁460

RuntimeError: Data processing error: CAS service error : Reqwest Error: HTTP status client error (401 Unauthorized), dom... 💬2 👁444

识别语音设置怎么感觉没用啊... 💬4 👁434

翻译字幕阶段出错:Traceback (most recent call last): File "videotrans\translator\_base.py", line 77, in run File "... 💬1 👁413

翻译钢铁侠2，使用批量翻译srt，中间有字幕没有翻译，同时出现把参数显示出来了。... 💬1 👁403

2025-09-10 11:09:02,333 - VideoTrans - ERROR - FFmpeg 命令执行失败 (force_cpu=True)。 命令: ffmpeg -hide_banner -ignore_unknown -... 💬11 👁398

声画不同步的问题... 💬2 👁387

{'code': 6, 'msg': 'CUDA error: no kernel image is available for execution on the device\nCUDA ... 💬12 👁375

Unable to open file 'model.bin' in model 'C:/Users/wujin/Desktop/win-videotrans-v3.78-0821/models\models-... 💬3 👁370

Unable to open file 'model.bin' in model 'D:/BaiduNetdiskDownload/win-videotrans-v3.78-0821/models\models... 💬1 👁356

_process:cuBLAS failed with status CUBLAS_STATUS_NOT_SUPPORTED:FasterAll... 💬1 👁343

('400 Client Error: Bad Request for url: http://127.0.0.1:9880/tts?text=%E5%91%83%2C%E5%85%B6%E5%AE%9E%E6%9C%AC%E6%... 💬1 👁342

videotrans.configure._except.TranslateSrtError: Request triggered 429, please increase the pause time: Error code: 429 -... 💬3 👁339

2025-09-10 11:09:02,333 - VideoTrans - ERROR - FFmpeg 命令执行失败 (force_cpu=True)。命令: ffmpeg -hide_banner -ignore_unknown -... 💬11 👁398