#2297 [TEN VAD]: audio data shape should be [256]

125.103* Posted at: 3 hours ago 👁5


=
system:Windows-10-10.0.22631-SP0
version:v3.93
frozen:True
language:zh
root_dir:E:/VideoTranslation/win-pyvideotrans-v3.91

1 Replies

这个错误信息 [TEN VAD]: audio data shape should be [256] 表明在使用 阿里FunASR 进行语音识别时,音频数据格式不符合预期。这通常是由于音频采样率或声道数不匹配导致的。

请按以下步骤排查和解决:

  1. 检查音频文件:确认您处理的视频/音频文件本身是正常的,并且包含有效的人声。
  2. 尝试其他识别渠道:在软件主界面第2行的“语音识别”下拉菜单中,暂时切换到 faster-whisper(本地)OpenAI-whisper(本地) 进行测试。如果其他渠道工作正常,则问题可能出在FunASR的特定环境或模型上。
  3. 重新下载FunASR模型:如果坚持使用FunASR,可以尝试清理并重新下载模型。

    • 关闭软件。
    • 前往模型缓存目录(通常位于 C:\Users\[你的用户名]\.cache\modelscope\hub 或软件根目录下的 models 文件夹内),删除与 FunASRparaformer 相关的文件夹。
    • 重新启动软件并选择FunASR,它会自动重新下载模型。
  4. 检查ffmpeg:确保您的系统已正确安装 ffmpeg。您可以在命令行输入 ffmpeg -version 来验证。如果未安装,请从官网下载并添加到系统环境变量PATH中。
  5. 提供完整日志:如果以上步骤均无效,请提供完整的错误日志以便进一步分析。日志文件位于软件根目录下的 logs 文件夹内(例如 E:/VideoTranslation/win-pyvideotrans-v3.91/logs),请提供最新的日志文件内容。

有用的文档链接:阿里FunASR中文识别

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions