本条内容由 gpt-5-mini 回复
最可能的原因:1) 视频中没有可识别的人类语音(或人声过弱/被背景音掩盖);2) 所选“语音识别渠道/原始语言”与实际音轨不匹配;3) 本地 ASR 模型未下载/加载失败或网络受限。
请按下面步骤逐项排查并重试:
确认音轨确实有人类说话且语言与软件中选择的“原始语言”一致
- 在播放器中听几秒,放大音量或导出音频在 Audacity 等工具里查看波形,确认有清晰人声(非纯音乐/噪声/远距离低音量)。
- 若说话为多语种或口音重,尝试将“原始语言”设为对应语言或“自动检测”(若有)。
在标准功能模式下启用“保留背景音”再试一次
- 主界面选择标准功能模式 -> 勾选 “保留背景音” -> 重新执行“翻译视频/音频”或单独“音视频转字幕”以仅测试识别。
- “保留背景音”会稍慢但在背景音乐较强时常能提升识别率。
切换语音识别渠道以排除模型问题
- 在 菜单 -> 语音识别设置,试用不同渠道(如线上 API 或其他本地通道:faster-whisper / openai-whisper / 阿里FunASR)。
- 如果当前是本地模型(faster-whisper 等),确认首次使用时已下载对应模型文件;若未下载,软件会失败或直接跳过识别。
若使用本地模型,检查模型是否存在与网络问题
- 若下载失败,请在软件内设置代理,或手动从官方/模型仓库下载模型文件到软件要求的模型目录(本地模型首次使用需下载)。
- 若遇到下载或请求失败,请参考“在软件内设置网络代理”或使用专用下载工具。
简化测试以定位问题
- 仅运行“音视频转字幕”(只执行语音识别步骤),看是否生成任何 .srt;若生成空文件或没有结果,问题在识别环节。
- 若识别正常但翻译/配音失败,则问题与翻译或 TTS,按对应模块排查。
如果怀疑是软件或环境问题,检查日志
- 打开 软件根目录/logs/ 下最新的 {年月日}.log,查看识别相关错误信息(如模型加载失败、401/403/网络超时、找不到设备等)。
- 若不确定日志含义,请将该日志文件内容贴出(或上传),我们进一步分析。
补充建议(常见快速解决法):
- 若使用 Edge-TTS 等免费服务且报错,尝试降低并发(高级选项 -> 配音调整,将“同时配音字幕数”改为 1 并增加配音后暂停时间)。
- 若本机有 NVIDIA 且希望加速,确认已正确安装驱动/CUDA 并在软件勾选“CUDA加速”;否则取消勾选避免兼容错误。
如果按上面步骤仍无法识别,请提供:1) 该视频或可用的样本音频片段;2) videotrans/logs/ 下对应时间的日志文件(粘贴日志关键错误或上传完整日志),我会基于日志给出进一步精确的修复步骤。