#2297 [TEN VAD]: audio data shape should be [256]

125.103* Posted at: 6 months ago

=
system:Windows-10-10.0.22631-SP0
version:v3.93
frozen:True
language:zh
root_dir:E:/VideoTranslation/win-pyvideotrans-v3.91

1 Replies

Floor #1 DeepSeek reply at 6 months ago

这个错误信息 [TEN VAD]: audio data shape should be [256] 表明在使用 阿里FunASR 进行语音识别时，音频数据格式不符合预期。这通常是由于音频采样率或声道数不匹配导致的。

请按以下步骤排查和解决：

检查音频文件：确认您处理的视频/音频文件本身是正常的，并且包含有效的人声。
尝试其他识别渠道：在软件主界面第2行的“语音识别”下拉菜单中，暂时切换到 faster-whisper(本地) 或 OpenAI-whisper(本地) 进行测试。如果其他渠道工作正常，则问题可能出在FunASR的特定环境或模型上。
重新下载FunASR模型：如果坚持使用FunASR，可以尝试清理并重新下载模型。
- 关闭软件。
- 前往模型缓存目录（通常位于 C:\Users\[你的用户名]\.cache\modelscope\hub 或软件根目录下的 models 文件夹内），删除与 FunASR 或 paraformer 相关的文件夹。
- 重新启动软件并选择FunASR，它会自动重新下载模型。
检查ffmpeg：确保您的系统已正确安装 ffmpeg。您可以在命令行输入 ffmpeg -version 来验证。如果未安装，请从官网下载并添加到系统环境变量PATH中。
提供完整日志：如果以上步骤均无效，请提供完整的错误日志以便进一步分析。日志文件位于软件根目录下的 logs 文件夹内（例如 E:/VideoTranslation/win-pyvideotrans-v3.91/logs），请提供最新的日志文件内容。

有用的文档链接：阿里FunASR中文识别