#3868 TaskCfgSTT(is_cuda=True, uuid='25f10b20e4', cache_folder='D:/hai/AI/win-videotrans/tmp/21720/25f10b20e4', target_dir='c:

45.62* Posted at: 3 months ago

语音识别阶段出错 [阿里FunASR(本地)] Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 898, in funasr_mlt
File "funasr\auto\auto_model.py", line 135, in init

model, kwargs = self.build_model(**kwargs)

File "funasr\auto\auto_model.py", line 245, in build_model

tokenizer = tokenizer_class(**tokenizer_conf)

File "D:\hai\AI\win-videotrans\_internal\funasr\tokenizer\hf_tokenizer.py", line 11, in HuggingfaceTokenizer

tokenizer = AutoTokenizer.from_pretrained(init_param_path)

UnboundLocalError: local variable 'AutoTokenizer' referenced before assignment

Traceback (most recent call last):
File "videotrans\task\job.py", line 105, in run
File "videotrans\task\_speech2text.py", line 159, in recogn
File "videotrans\recognition\__init__.py", line 246, in run
File "videotrans\recognition\_base.py", line 143, in run
File "videotrans\recognition\_funasr.py", line 64, in _exec
File "videotrans\configure\_base.py", line 289, in _new_process
RuntimeError: Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 898, in funasr_mlt
File "funasr\auto\auto_model.py", line 135, in init

model, kwargs = self.build_model(**kwargs)

File "funasr\auto\auto_model.py", line 245, in build_model

tokenizer = tokenizer_class(**tokenizer_conf)

File "D:\hai\AI\win-videotrans\_internal\funasr\tokenizer\hf_tokenizer.py", line 11, in HuggingfaceTokenizer

tokenizer = AutoTokenizer.from_pretrained(init_param_path)

UnboundLocalError: local variable 'AutoTokenizer' referenced before assignment
TaskCfgSTT(is_cuda=True, uuid='25f10b20e4', cache_folder='D:/hai/AI/win-videotrans/tmp/21720/25f10b20e4', target_dir='c:/users/administrator/videos/pyvideotrans/recogn', source_language=None, source_language_code=None, source_sub=None, source_wav=None, source_wav_output=None, target_language=None, target_language_code=None, target_sub='c:/users/administrator/videos/pyvideotrans/recogn/历史是面镜子. 抖音.srt', target_wav=None, target_wav_output=None, name='d:/Downloads/历史是面镜子. 抖音.mp4', noextname='历史是面镜子. 抖音', basename='历史是面镜子. 抖音.mp4', ext='mp4', dirname='D:/Downloads', shound_del_name=None, detect_language='en', recogn_type=3, model_name='Fun-ASR-Nano-2512', shibie_audio='D:/hai/AI/win-videotrans/tmp/21720/25f10b20e4/历史是面镜子. _ 抖音-1774887592.9010792.wav', remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=True)

=
system:Windows-10-10.0.19045-SP0
version:v3.98
frozen:True
language:zh
root_dir:D:/hai/AI/win-videotrans

Floor #1 DeepSeek reply at 3 months ago

这是由于阿里FunASR(本地)语音识别渠道的模型文件下载不完整或缺失关键依赖导致的。

请检查软件根目录下的 models 文件夹，确认是否存在名为 models--iic--FunASR 的文件夹。如果不存在，说明模型未成功下载。
手动下载模型：
- 在 models 文件夹内创建 models--iic--FunASR 文件夹。
- 访问模型下载地址：https://huggingface.co/iic/FunASR/tree/main。
- 将该页面所有 .json、.bin、.txt 等文件下载并复制到上面创建的文件夹内。
如果手动下载后问题依旧，可能是软件打包的依赖库版本不兼容。请尝试从官网下载最新的完整软件包，解压到新目录后重试。
作为替代方案，对于中文语音识别，可以切换到 Qwen-ASR(本地) 或 faster-whisper(本地) 的 large-v3 模型。

请查阅相关文档：

Floor #2 45.62* reply at 3 months ago

模型已经下载回来的，但还是提示错误

Floor #3 DeepSeek reply at 3 months ago

这是由于阿里FunASR(本地)语音识别渠道在软件打包版本中可能存在依赖库版本冲突或环境问题导致的。错误信息表明 AutoTokenizer 变量在引用前未定义，这是底层库 transformers 或 funasr 的导入问题。

请按以下步骤解决：

确认模型文件完整性：确保 models/models--iic--FunASR 文件夹内包含 config.json、model.safetensors 或 pytorch_model.bin 等核心模型文件，而不仅仅是 tokenizer.json。
使用替代渠道：阿里FunASR(本地)渠道在预打包版中可能不稳定。对于中文语音识别，建议切换到更稳定的渠道：
- 免费本地渠道：选择 Qwen-ASR(本地)。
- 免费本地渠道：选择 faster-whisper(本地)，模型选择 large-v3（需确保显存或内存足够）。
源码部署：如果必须使用FunASR，请考虑使用 uv 进行源码部署，以获得更纯净的依赖环境。
更新软件：前往官网下载最新的完整软件包，解压到新目录运行，避免旧版本残留文件干扰。

请查阅相关文档：

Floor #4 45.62* reply at 3 months ago

Floor #5 DeepSeek reply at 3 months ago

这是由于阿里FunASR(本地)语音识别渠道在当前的预打包版本中存在依赖库冲突或环境问题，导致无法正常加载模型。从截图看，模型文件已下载，但核心库 transformers 的 AutoTokenizer 模块在运行时未能正确初始化。请按以下步骤解决：立即切换语音识别渠道：在软件主界面的“语音识别”下拉菜单中，将渠道从“阿里FunASR(本地)”更改为“Qwen-ASR(本地)”或“faster-whisper(本地)”。对于中文视频，Qwen-ASR(本地)是更优选择。清理缓存后重试：在软件主界面左上角勾选“清理已生成”，然后重新选择视频进行处理。这将强制重新下载和初始化模型。更新软件：前往官网下载最新的完整软件包（而非补丁包），解压到全新的英文路径（如 D:\pyVideoTrans）后运行。如果问题依旧，该渠道在当前打包版本中可能存在无法修复的兼容性问题。建议使用替代渠道完成工作。请查阅相关文档：Qwen-MT/Qwen3-ASR作为翻译模型和语音识别模型 faster和openai识别模式

#3868 TaskCfgSTT(is_cuda=True, uuid='25f10b20e4', cache_folder='D:/hai/AI/win-videotrans/tmp/21720/25f10b20e4', target_dir='c:

5 Replies

请查阅相关文档：

请查阅相关文档：

Post Your Reply

Related resource