#4546 TaskCfgSTT(is_cuda=True, uuid='e3ccd30378', cache_folder='D:/pyVideoTrans/tmp/11872/e3ccd30378', target_dir='D:/pyVideoT

240c:c983* Posted at: 20 hours ago 👁34

语音识别阶段出错 [faster-whisper(本地)] Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 479, in faster_whisper
File "faster_whisper\transcribe.py", line 1851, in restore_speech_timestamps
File "faster_whisper\transcribe.py", line 1279, in generate_segments
File "faster_whisper\transcribe.py", line 1590, in add_word_timestamps
File "faster_whisper\transcribe.py", line 1709, in find_alignment
RuntimeError: cuBLAS failed with status CUBLAS_STATUS_NOT_SUPPORTED

Traceback (most recent call last):
File "videotrans\task\job.py", line 105, in run
File "videotrans\task\_speech2text.py", line 191, in recogn
File "videotrans\recognition\__init__.py", line 293, in run
File "videotrans\recognition\_base.py", line 143, in run
File "videotrans\recognition\_overall.py", line 33, in _exec
File "videotrans\recognition\_overall.py", line 106, in _faster
File "videotrans\configure\_base.py", line 289, in _new_process
RuntimeError: Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 479, in faster_whisper
File "faster_whisper\transcribe.py", line 1851, in restore_speech_timestamps
File "faster_whisper\transcribe.py", line 1279, in generate_segments
File "faster_whisper\transcribe.py", line 1590, in add_word_timestamps
File "faster_whisper\transcribe.py", line 1709, in find_alignment
RuntimeError: cuBLAS failed with status CUBLAS_STATUS_NOT_SUPPORTED
TaskCfgSTT(is_cuda=True, uuid='e3ccd30378', cache_folder='D:/pyVideoTrans/tmp/11872/e3ccd30378', target_dir='D:/pyVideoTrans/output/recogn', source_language=None, source_language_code=None, source_sub=None, source_wav=None, source_wav_output=None, target_language=None, target_language_code=None, target_sub='D:/pyVideoTrans/output/recogn/RCT-962.srt', target_wav=None, target_wav_output=None, name='D:/video/RCT-962.mp4', noextname='RCT-962', basename='RCT-962.mp4', ext='mp4', dirname='D:/video', shound_del_name=None, detect_language='ja', recogn_type=0, model_name='small', shibie_audio='D:/pyVideoTrans/tmp/11872/e3ccd30378/RCT-962-1778684802.5665421.wav', remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False)


=
system:Windows-10-10.0.26200-SP0
version:v3.99
frozen:True
language:zh
root_dir:D:/pyVideoTrans

15 Replies

这是由于 cuBLAS 与你的显卡/CUDA 环境不兼容导致的,常见于较新显卡(如 RTX 50 系列)或 CUDA 版本过低/过高。

解决方法:

  1. 检查 CUDA 版本:确保已安装 CUDA 12.8 或更高版本(建议 12.8),并安装匹配的 cuDNN 9.x。
  2. 如果是 RTX 50 系列显卡:请查看下方文档链接中的专项解决方案。
  3. 临时绕过:在“菜单 → 工具/选项 → 高级选项 → 语音识别参数”中,将 CUDA数据类型 设为 float16int8,或关闭 CUDA 加速(取消勾选主界面的“CUDA加速”),改用 CPU 模式(速度会变慢但能运行)。

请查阅相关文档:

image

无法直接查看你上传的图片内容。请用文字描述一下截图中的错误信息或界面状态,以便进一步分析。

如果图片是显示同样的 cuBLAS 错误,请先尝试我上面提供的解决方案(检查 CUDA 版本、切换数据类型或关闭 CUDA 加速)。如果问题依旧,请提供 logs/ 文件夹下最新的日志文件(复制最后30行)。

一直卡在Resegment 99.98%

卡在 Resegment 99.98% 通常是由于显存不足或模型处理长音频时内存耗尽,常见于使用 CUDA 加速和大型模型。

解决方法(按顺序尝试):

  1. 强制使用 CPU 模式:在主界面取消勾选“CUDA加速”,纯 CPU 处理(速度慢但不易卡死)。
  2. 关闭“二次识别”(如果已选中)并取消“Whisper预分割音频”(菜单 → 工具/选项 → 高级选项 → 语音识别参数)。
  3. 降低模型大小:将识别模型从 large-v3 改为 smallbase
  4. 调整高级参数

    • CUDA数据类型改为 int8(若使用CUDA)。
    • beam_sizebest_of 均设为 1
    • 减小“最长语音持续秒数”至 6 秒,增大“静音分割持续毫秒数”至 300-500。
  5. 清理缓存:勾选主界面左上角“清理已生成”,重新处理。

若仍卡住,请提供 logs/ 下最新的日志文件(最后30行)以便进一步分析。

1000秒完成1.1%正常吗,是转录并翻译的功能,用的faster-whisper,v3-turbo,gpu是5060

这非常不正常,1000秒仅完成1.1%说明GPU加速未生效,实际在使用CPU进行推理,速度会慢几十倍。RTX 5060 配合 v3-turbo 模型理应快得多。请按以下顺序排查:1. 确认CUDA加速已勾选:检查主界面“CUDA加速”复选框是否选中(必须打勾)。2. 检查CUDA环境:在CMD中运行 nvcc -V,确认版本为12.8或更高。若不是,请安装CUDA 12.8+ 及对应的 cuDNN 9.x。3. 检查驱动程序:更新NVIDIA驱动到最新版(支持RTX 5060的驱动)。4. 高级选项调整:菜单→工具/选项→高级选项→语音识别参数:CUDA数据类型设置为 float16int8(显存占用更低)。取消勾选“Whisper预分割音频”(该项可能增加CPU负载)。5. 验证GPU是否被调用:运行任务时打开任务管理器→性能→GPU,看3D或Compute是否占用飙升。如果仍是CPU占用高,则CUDA未生效。若上述都无效,请提供 logs/ 下最新的log文件(复制最后30行)以便进一步分析。

我的GPU没动静

GPU没有动静,说明CUDA加速没有启用,faster-whisper正在使用CPU处理,因此速度极慢。RTX 5060 理应能大幅加速,请按以下步骤排查:

  1. 确认勾选了 CUDA 加速
    主界面右上角(或设置区域)的 CUDA加速 复选框必须打钩。
  2. 检查 CUDA 版本
    打开 CMD,运行 nvcc -V,查看显示的版本号是否 ≥ 12.8

    • 如果版本低于 12.8,请下载安装 CUDA 12.8+ 及匹配的 cuDNN 9.x。
    • 如果提示“nvcc 不是内部或外部命令”,说明 CUDA 未正确安装或环境变量未配置。
  3. 更新显卡驱动
    确保 NVIDIA 驱动为最新版,以支持 RTX 5060。
  4. 检查高级选项设置
    菜单 → 工具/选项 → 高级选项 → 语音识别参数:

    • CUDA数据类型:建议设为 float16int8(降低显存占用)。
    • 取消勾选 “Whisper预分割音频”(该选项可能增加CPU负载)。
  5. 验证 GPU 是否被调用
    开始任务后,打开任务管理器 → 性能 → GPU,查看“3D”或“Compute”使用率。若始终为 0%,则 CUDA 未生效。

如果以上均无法解决,很可能是因为 RTX 5060 较新,需要特殊处理(参考 cuBLAS 兼容性文档)。请尝试以下临时方案:

  • 在“高级选项”中将 CUDA数据类型 改为 int8,并设置 beam_size=1best_of=1
  • 若仍无效,可暂时取消勾选 CUDA 加速,先用 CPU 完成当前任务(虽然慢,但可验证软件本身无其他问题)。

请查阅相关文档:

如果问题依旧,请提供 logs/ 文件夹下最新的日志文件底部30行,以便进一步分析。

不管有没有选cuda好像都没啥差别,CPU和GPU也没有咋转

任务几乎停止运转,说明软件可能卡死在某个环节(如模型加载、音频处理)而非正常减速。RTX 5060 是新显卡,需要特别注意 CUDA 环境的完全正确性。请按以下步骤逐一排查:检查 CUDA 是否真正可用 打开 CMD,输入 nvcc -V,如果提示“不是内部或外部命令”,说明 CUDA 未安装或环境变量未配置,必须安装 CUDA 12.8+ 并设置 PATH。输入 nvidia-smi,确认驱动支持你的显卡,且 CUDA 版本列显示 ≥12.8。测试小文件 重启软件,选择一段极短视频(10秒),模型改用 small,取消勾选所有复杂选项(降噪、说话人分离、二次识别等),只勾选 CUDA 加速。观察进度条是否正常移动,以及任务管理器中 GPU 的 Compute 使用率是否上升。如果依然不动,尝试在“高级选项 → 语音识别参数”中,将 CUDA数据类型 设为 float16 或 int8,并将 “Whisper预分割音频” 勾选上(某些显卡需要此选项才能正常工作)。检查日志 打开软件目录下的 logs/ 文件夹,找到最新日志文件,查看最后 30 行是否有新的错误(如模型加载失败、cuBLAS 错误、显存不足等)。如果日志停留在“Resegment 99.98%”且再无下文,说明程序死循环或显存溢出。尝试 CPU 模式确认软件本身正常 取消勾选 CUDA 加速,模型选 tiny,重新处理一个短片。如果 CPU 和 GPU 都开始工作(CPU 占用提高),说明 CUDA 环境配置有误;如果 CPU 也不动,则可能是软件或视频文件问题。如果经过以上测试仍然无任何进展,请将 logs/ 下最新的日志文件内容(底部约 30 行)贴出,以便进一步分析。

[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=False, uuid='e3ccd30378', cache_folder='D:/pyVideoTrans/tmp/24048/e3ccd30378', target_dir='D:/video/_video_out/RCT-962-mp4', source_language='日语', source_language_code='ja', source_sub='D:/video/_video_out/RCT-962-mp4/ja.srt', source_wav='D:/pyVideoTrans/tmp/24048/e3ccd30378/ja.wav', source_wav_output='D:/video/_video_out/RCT-962-mp4/ja.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='D:/video/_video_out/RCT-962-mp4/zh-cn.srt', target_wav='D:/pyVideoTrans/tmp/24048/e3ccd30378/target.wav', target_wav_output='D:/video/_video_out/RCT-962-mp4/zh-cn.m4a', name='D:/video/RCT-962.mp4', noextname='RCT-962', basename='RCT-962.mp4', ext='mp4', dirname='D:/video', shound_del_name=None, translate_type=4, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='ja', recogn_type=1, model_name='large-v3-turbo', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='D:/video/_video_out/RCT-962-mp4/RCT-962.mp4', novoice_mp4='D:/pyVideoTrans/tmp/24048/e3ccd30378/novoice.mp4', is_separate=False, embed_bgm=True, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=True, output_srt=0, copysrt_rawvideo=True, loop_backaudio=0, backaudio_volume=0.8)
[DEBUG] The file information: {'streams': {'index': 0, 'codec_name': 'h264', 'codec_long_name': 'H.264 / AVC / MPEG-4 AVC / MPEG-4 part 10', 'profile': 'High', 'codec_type': 'video', 'codec_tag_string': 'avc1', 'codec_tag': '0x31637661', 'width': 1920, 'height': 1080, 'coded_width': 1920, 'coded_height': 1080, 'closed_captions': 0, 'film_grain': 0, 'has_b_frames': 2, 'sample_aspect_ratio': '1:1', 'display_aspect_ratio': '16:9', 'pix_fmt': 'yuv420p', 'level': 40, 'chroma_location': 'left', 'field_order': 'progressive', 'refs': 1, 'is_avc': 'true', 'nal_length_size': '4', 'id': '0x1', 'r_frame_rate': '30000/1001', 'avg_frame_rate': '715032403/23836023', 'time_base': '1/90000', 'start_pts': 5940, 'start_time': '0.066000', 'duration_ts': 804645335, 'duration': '8940.503722', 'bit_rate': '2992966', 'bits_per_raw_sample': '8', 'nb_frames': '268197', 'extradata_size': 44, 'disposition': {'default': 1, 'dub': 0, 'original': 0, 'comment': 0, 'lyrics': 0, 'karaoke': 0, 'forced': 0, 'hearing_impaired': 0, 'visual_impaired': 0, 'clean_effects': 0, 'attached_pic': 0, 'timed_thumbnails': 0, 'non_diegetic': 0, 'captions': 0, 'descriptions': 0, 'metadata': 0, 'dependent': 0, 'still_image': 0, 'multilayer': 0}, 'tags': {'language': 'und', 'handler_name': 'VideoHandler', 'vendor_id': '[00'}}, {'index': 1, 'codec_name': 'aac', 'codec_long_name': 'AAC (Advanced Audio Coding)', 'profile': 'LC', 'codec_type': 'audio', 'codec_tag_string': 'mp4a', 'codec_tag': '0x6134706d', 'sample_fmt': 'fltp', 'sample_rate': '44100', 'channels': 2, 'channel_layout': 'stereo', 'bits_per_sample': 0, 'initial_padding': 0, 'id': '0x2', 'r_frame_rate': '0/0', 'avg_frame_rate': '0/0', 'time_base': '1/44100', 'start_pts': 0, 'start_time': '0.000000', 'duration_ts': 394275449, 'duration': '8940.486372', 'bit_rate': '127961', 'nb_frames': '385011', 'extradata_size': 2, 'disposition': {'default': 1, 'dub': 0, 'original': 0, 'comment': 0, 'lyrics': 0, 'karaoke': 0, 'forced': 0, 'hearing_impaired': 0, 'visual_impaired': 0, 'clean_effects': 0, 'attached_pic': 0, 'timed_thumbnails': 0, 'non_diegetic': 0, 'captions': 0, 'descriptions': 0, 'metadata': 0, 'dependent': 0, 'still_image': 0, 'multilayer': 0}, 'tags': {'language': 'und', 'handler_name': 'SoundHandler', 'vendor_id': '00'}}], 'format': {'filename': 'D:/video/RCT-962.mp4', 'nb_streams': 2, 'nb_programs': 0, 'nb_stream_groups': 0, 'format_name': 'mov,mp4,m4a,3gp,3g2,mj2', 'format_long_name': 'QuickTime / MOV', 'start_time': '0.000000', 'duration': '8940.569722', 'size': '3497604088', 'bit_rate': '3129647', 'probe_score': 100, 'tags': {'major_brand': 'isom', 'minor_version': '512', 'compatible_brands': 'isomiso2avc1mp41', 'encoder': 'Lavf57.83.100'}}}
[DEBUG] The file info after process:result={'video_fps': 29.97002997002997, 'r_frame_rate': '30000/1001', 'video_codec_name': 'h264', 'audio_codec_name': 'aac', 'width': 1920, 'height': 1080, 'time': 8940503, 'streams_len': 2, 'streams_audio': 1, 'video_streams': 1, 'color': 'yuv420p'}

从日志可以看出当前配置中 is_cuda=False,且视频长达 2.5 小时(8940秒),使用了 large-v3-turbo 模型。如果没有CUDA加速,纯CPU处理这么大的模型和长视频,卡在 99.98% 是完全正常的(甚至可能几个小时一动不动)。

请务必按以下步骤确认CUDA加速生效:

  1. 勾选CUDA加速:在主界面的“CUDA加速”复选框打上勾。
  2. 验证CUDA版本:打开CMD,运行 nvcc -V,确认版本 ≥ 12.8。若没有,请安装 CUDA 12.8+ 及 cuDNN 9.x。
  3. 调整高级参数(降低显存压力):菜单 → 工具/选项 → 高级选项 → 语音识别参数:

    • CUDA数据类型:设为 int8float16
    • beam_size:设为 1
    • best_of:设为 1
    • 取消勾选 “Whisper预分割音频”
  4. 先用小模型测试:将识别模型换为 small,选择一个1分钟短片,勾选CUDA,观察任务管理器GPU的 Compute 是否开始占用。如果GPU正常工作了,再换回 large-v3-turbo

如果以上步骤后GPU仍然无动静:请下载安装最新的 NVIDIA 驱动,并参考下方文档处理 RTX 5060 特有的 cuBLAS 兼容问题。

请查阅相关文档:

若仍无法解决,请提供最新的日志文件底部30行(确保在勾选CUDA后重新运行一次再取日志)。

确实,选了一个小视频,tiny模型,大概三分钟完成了

问题已确认:软件本身正常,之前卡住是因为长达2.5小时的视频使用了large-v3-turbo模型且未开启CUDA加速,纯CPU处理必然非常缓慢。启用CUDA加速并选择合适模型后,三分钟完成说明GPU已正常工作。后续处理长视频时,建议:始终勾选“CUDA加速”。模型选择:中文日语等非英语视频可先用 small 或 medium,质量与速度平衡;large-v3-turbo 适合高质量需求,配合CUDA加速。如果因显存不足导致卡顿,可在“高级选项”中将 CUDA数据类型 设为 int8,beam_size 和 best_of 设为1。请查阅相关文档:总是提示显存不足若遇到RTX 5060的cuBLAS兼容问题,请参考之前提供的链接。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource