#4546 TaskCfgSTT(is_cuda=True, uuid='e3ccd30378', cache_folder='D:/pyVideoTrans/tmp/11872/e3ccd30378', target_dir='D:/pyVideoT

240c:c983* Posted at: 2 months ago

语音识别阶段出错 [faster-whisper(本地)] Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 479, in faster_whisper
File "faster_whisper\transcribe.py", line 1851, in restore_speech_timestamps
File "faster_whisper\transcribe.py", line 1279, in generate_segments
File "faster_whisper\transcribe.py", line 1590, in add_word_timestamps
File "faster_whisper\transcribe.py", line 1709, in find_alignment
RuntimeError: cuBLAS failed with status CUBLAS_STATUS_NOT_SUPPORTED

Traceback (most recent call last):
File "videotrans\task\job.py", line 105, in run
File "videotrans\task\_speech2text.py", line 191, in recogn
File "videotrans\recognition\__init__.py", line 293, in run
File "videotrans\recognition\_base.py", line 143, in run
File "videotrans\recognition\_overall.py", line 33, in _exec
File "videotrans\recognition\_overall.py", line 106, in _faster
File "videotrans\configure\_base.py", line 289, in _new_process
RuntimeError: Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 479, in faster_whisper
File "faster_whisper\transcribe.py", line 1851, in restore_speech_timestamps
File "faster_whisper\transcribe.py", line 1279, in generate_segments
File "faster_whisper\transcribe.py", line 1590, in add_word_timestamps
File "faster_whisper\transcribe.py", line 1709, in find_alignment
RuntimeError: cuBLAS failed with status CUBLAS_STATUS_NOT_SUPPORTED
TaskCfgSTT(is_cuda=True, uuid='e3ccd30378', cache_folder='D:/pyVideoTrans/tmp/11872/e3ccd30378', target_dir='D:/pyVideoTrans/output/recogn', source_language=None, source_language_code=None, source_sub=None, source_wav=None, source_wav_output=None, target_language=None, target_language_code=None, target_sub='D:/pyVideoTrans/output/recogn/RCT-962.srt', target_wav=None, target_wav_output=None, name='D:/video/RCT-962.mp4', noextname='RCT-962', basename='RCT-962.mp4', ext='mp4', dirname='D:/video', shound_del_name=None, detect_language='ja', recogn_type=0, model_name='small', shibie_audio='D:/pyVideoTrans/tmp/11872/e3ccd30378/RCT-962-1778684802.5665421.wav', remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False)

=
system:Windows-10-10.0.26200-SP0
version:v3.99
frozen:True
language:zh
root_dir:D:/pyVideoTrans

Floor #1 DeepSeek reply at 2 months ago

这是由于 cuBLAS 与你的显卡/CUDA 环境不兼容导致的，常见于较新显卡（如 RTX 50 系列）或 CUDA 版本过低/过高。

解决方法：

检查 CUDA 版本：确保已安装 CUDA 12.8 或更高版本（建议 12.8），并安装匹配的 cuDNN 9.x。
如果是 RTX 50 系列显卡：请查看下方文档链接中的专项解决方案。
临时绕过：在“菜单 → 工具/选项 → 高级选项 → 语音识别参数”中，将 CUDA数据类型 设为 float16 或 int8，或关闭 CUDA 加速（取消勾选主界面的“CUDA加速”），改用 CPU 模式（速度会变慢但能运行）。

请查阅相关文档：

CUBLAS_STATUS_NOT_SUPPORTED faster-whisper 在50系显卡上加速遇到错误的解决办法

Floor #2 240c:c983* reply at 2 months ago

Floor #3 DeepSeek reply at 2 months ago

无法直接查看你上传的图片内容。请用文字描述一下截图中的错误信息或界面状态，以便进一步分析。

如果图片是显示同样的 cuBLAS 错误，请先尝试我上面提供的解决方案（检查 CUDA 版本、切换数据类型或关闭 CUDA 加速）。如果问题依旧，请提供 logs/ 文件夹下最新的日志文件（复制最后30行）。

Floor #4 240c:c983* reply at 2 months ago

一直卡在Resegment 99.98%

Floor #5 DeepSeek reply at 2 months ago

卡在 Resegment 99.98% 通常是由于显存不足或模型处理长音频时内存耗尽，常见于使用 CUDA 加速和大型模型。

解决方法（按顺序尝试）：

强制使用 CPU 模式：在主界面取消勾选“CUDA加速”，纯 CPU 处理（速度慢但不易卡死）。
关闭“二次识别”（如果已选中）并取消“Whisper预分割音频”（菜单 → 工具/选项 → 高级选项 → 语音识别参数）。
降低模型大小：将识别模型从 large-v3 改为 small 或 base。
调整高级参数：
- CUDA数据类型改为 int8（若使用CUDA）。
- beam_size 和 best_of 均设为 1。
- 减小“最长语音持续秒数”至 6 秒，增大“静音分割持续毫秒数”至 300-500。
清理缓存：勾选主界面左上角“清理已生成”，重新处理。

若仍卡住，请提供 logs/ 下最新的日志文件（最后30行）以便进一步分析。

Floor #6 240c:c983* reply at 2 months ago

1000秒完成1.1%正常吗，是转录并翻译的功能，用的faster-whisper，v3-turbo,gpu是5060

Floor #7 DeepSeek reply at 2 months ago

这非常不正常，1000秒仅完成1.1%说明GPU加速未生效，实际在使用CPU进行推理，速度会慢几十倍。RTX 5060 配合 v3-turbo 模型理应快得多。请按以下顺序排查：1. 确认CUDA加速已勾选：检查主界面“CUDA加速”复选框是否选中（必须打勾）。2. 检查CUDA环境：在CMD中运行 nvcc -V，确认版本为12.8或更高。若不是，请安装CUDA 12.8+ 及对应的 cuDNN 9.x。3. 检查驱动程序：更新NVIDIA驱动到最新版（支持RTX 5060的驱动）。4. 高级选项调整：菜单→工具/选项→高级选项→语音识别参数：CUDA数据类型设置为 float16 或 int8（显存占用更低）。取消勾选“Whisper预分割音频”（该项可能增加CPU负载）。5. 验证GPU是否被调用：运行任务时打开任务管理器→性能→GPU，看3D或Compute是否占用飙升。如果仍是CPU占用高，则CUDA未生效。若上述都无效，请提供 logs/ 下最新的log文件（复制最后30行）以便进一步分析。

Floor #8 240c:c983* reply at 2 months ago

我的GPU没动静

Floor #9 DeepSeek reply at 2 months ago

GPU没有动静，说明CUDA加速没有启用，faster-whisper正在使用CPU处理，因此速度极慢。RTX 5060 理应能大幅加速，请按以下步骤排查：

确认勾选了 CUDA 加速
主界面右上角（或设置区域）的 CUDA加速 复选框必须打钩。
检查 CUDA 版本
打开 CMD，运行 nvcc -V，查看显示的版本号是否 ≥ 12.8。
- 如果版本低于 12.8，请下载安装 CUDA 12.8+ 及匹配的 cuDNN 9.x。
- 如果提示“nvcc 不是内部或外部命令”，说明 CUDA 未正确安装或环境变量未配置。
更新显卡驱动
确保 NVIDIA 驱动为最新版，以支持 RTX 5060。
检查高级选项设置
菜单 → 工具/选项 → 高级选项 → 语音识别参数：
- CUDA数据类型：建议设为 float16 或 int8（降低显存占用）。
- 取消勾选 “Whisper预分割音频”（该选项可能增加CPU负载）。
验证 GPU 是否被调用
开始任务后，打开任务管理器 → 性能 → GPU，查看“3D”或“Compute”使用率。若始终为 0%，则 CUDA 未生效。

如果以上均无法解决，很可能是因为 RTX 5060 较新，需要特殊处理（参考 cuBLAS 兼容性文档）。请尝试以下临时方案：

在“高级选项”中将 CUDA数据类型 改为 int8，并设置 beam_size=1、best_of=1。
若仍无效，可暂时取消勾选 CUDA 加速，先用 CPU 完成当前任务（虽然慢，但可验证软件本身无其他问题）。

请查阅相关文档：

如果问题依旧，请提供 logs/ 文件夹下最新的日志文件底部30行，以便进一步分析。

Floor #10 240c:c983* reply at 2 months ago

不管有没有选cuda好像都没啥差别，CPU和GPU也没有咋转

Floor #11 DeepSeek reply at 2 months ago

任务几乎停止运转，说明软件可能卡死在某个环节（如模型加载、音频处理）而非正常减速。RTX 5060 是新显卡，需要特别注意 CUDA 环境的完全正确性。请按以下步骤逐一排查：检查 CUDA 是否真正可用打开 CMD，输入 nvcc -V，如果提示“不是内部或外部命令”，说明 CUDA 未安装或环境变量未配置，必须安装 CUDA 12.8+ 并设置 PATH。输入 nvidia-smi，确认驱动支持你的显卡，且 CUDA 版本列显示 ≥12.8。测试小文件重启软件，选择一段极短视频（10秒），模型改用 small，取消勾选所有复杂选项（降噪、说话人分离、二次识别等），只勾选 CUDA 加速。观察进度条是否正常移动，以及任务管理器中 GPU 的 Compute 使用率是否上升。如果依然不动，尝试在“高级选项 → 语音识别参数”中，将 CUDA数据类型设为 float16 或 int8，并将 “Whisper预分割音频” 勾选上（某些显卡需要此选项才能正常工作）。检查日志打开软件目录下的 logs/ 文件夹，找到最新日志文件，查看最后 30 行是否有新的错误（如模型加载失败、cuBLAS 错误、显存不足等）。如果日志停留在“Resegment 99.98%”且再无下文，说明程序死循环或显存溢出。尝试 CPU 模式确认软件本身正常取消勾选 CUDA 加速，模型选 tiny，重新处理一个短片。如果 CPU 和 GPU 都开始工作（CPU 占用提高），说明 CUDA 环境配置有误；如果 CPU 也不动，则可能是软件或视频文件问题。如果经过以上测试仍然无任何进展，请将 logs/ 下最新的日志文件内容（底部约 30 行）贴出，以便进一步分析。

Floor #12 240c:c983* reply at 2 months ago

[DEBUG] 最终配置信息：self.cfg=TaskCfgVTT(is_cuda=False, uuid='e3ccd30378', cache_folder='D:/pyVideoTrans/tmp/24048/e3ccd30378', target_dir='D:/video/_video_out/RCT-962-mp4', source_language='日语', source_language_code='ja', source_sub='D:/video/_video_out/RCT-962-mp4/ja.srt', source_wav='D:/pyVideoTrans/tmp/24048/e3ccd30378/ja.wav', source_wav_output='D:/video/_video_out/RCT-962-mp4/ja.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='D:/video/_video_out/RCT-962-mp4/zh-cn.srt', target_wav='D:/pyVideoTrans/tmp/24048/e3ccd30378/target.wav', target_wav_output='D:/video/_video_out/RCT-962-mp4/zh-cn.m4a', name='D:/video/RCT-962.mp4', noextname='RCT-962', basename='RCT-962.mp4', ext='mp4', dirname='D:/video', shound_del_name=None, translate_type=4, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='ja', recogn_type=1, model_name='large-v3-turbo', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='D:/video/_video_out/RCT-962-mp4/RCT-962.mp4', novoice_mp4='D:/pyVideoTrans/tmp/24048/e3ccd30378/novoice.mp4', is_separate=False, embed_bgm=True, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=True, output_srt=0, copysrt_rawvideo=True, loop_backaudio=0, backaudio_volume=0.8)
[DEBUG] The file information: {'streams': {'index': 0, 'codec_name': 'h264', 'codec_long_name': 'H.264 / AVC / MPEG-4 AVC / MPEG-4 part 10', 'profile': 'High', 'codec_type': 'video', 'codec_tag_string': 'avc1', 'codec_tag': '0x31637661', 'width': 1920, 'height': 1080, 'coded_width': 1920, 'coded_height': 1080, 'closed_captions': 0, 'film_grain': 0, 'has_b_frames': 2, 'sample_aspect_ratio': '1:1', 'display_aspect_ratio': '16:9', 'pix_fmt': 'yuv420p', 'level': 40, 'chroma_location': 'left', 'field_order': 'progressive', 'refs': 1, 'is_avc': 'true', 'nal_length_size': '4', 'id': '0x1', 'r_frame_rate': '30000/1001', 'avg_frame_rate': '715032403/23836023', 'time_base': '1/90000', 'start_pts': 5940, 'start_time': '0.066000', 'duration_ts': 804645335, 'duration': '8940.503722', 'bit_rate': '2992966', 'bits_per_raw_sample': '8', 'nb_frames': '268197', 'extradata_size': 44, 'disposition': {'default': 1, 'dub': 0, 'original': 0, 'comment': 0, 'lyrics': 0, 'karaoke': 0, 'forced': 0, 'hearing_impaired': 0, 'visual_impaired': 0, 'clean_effects': 0, 'attached_pic': 0, 'timed_thumbnails': 0, 'non_diegetic': 0, 'captions': 0, 'descriptions': 0, 'metadata': 0, 'dependent': 0, 'still_image': 0, 'multilayer': 0}, 'tags': {'language': 'und', 'handler_name': 'VideoHandler', 'vendor_id': '[00'}}, {'index': 1, 'codec_name': 'aac', 'codec_long_name': 'AAC (Advanced Audio Coding)', 'profile': 'LC', 'codec_type': 'audio', 'codec_tag_string': 'mp4a', 'codec_tag': '0x6134706d', 'sample_fmt': 'fltp', 'sample_rate': '44100', 'channels': 2, 'channel_layout': 'stereo', 'bits_per_sample': 0, 'initial_padding': 0, 'id': '0x2', 'r_frame_rate': '0/0', 'avg_frame_rate': '0/0', 'time_base': '1/44100', 'start_pts': 0, 'start_time': '0.000000', 'duration_ts': 394275449, 'duration': '8940.486372', 'bit_rate': '127961', 'nb_frames': '385011', 'extradata_size': 2, 'disposition': {'default': 1, 'dub': 0, 'original': 0, 'comment': 0, 'lyrics': 0, 'karaoke': 0, 'forced': 0, 'hearing_impaired': 0, 'visual_impaired': 0, 'clean_effects': 0, 'attached_pic': 0, 'timed_thumbnails': 0, 'non_diegetic': 0, 'captions': 0, 'descriptions': 0, 'metadata': 0, 'dependent': 0, 'still_image': 0, 'multilayer': 0}, 'tags': {'language': 'und', 'handler_name': 'SoundHandler', 'vendor_id': '00'}}], 'format': {'filename': 'D:/video/RCT-962.mp4', 'nb_streams': 2, 'nb_programs': 0, 'nb_stream_groups': 0, 'format_name': 'mov,mp4,m4a,3gp,3g2,mj2', 'format_long_name': 'QuickTime / MOV', 'start_time': '0.000000', 'duration': '8940.569722', 'size': '3497604088', 'bit_rate': '3129647', 'probe_score': 100, 'tags': {'major_brand': 'isom', 'minor_version': '512', 'compatible_brands': 'isomiso2avc1mp41', 'encoder': 'Lavf57.83.100'}}}
[DEBUG] The file info after process:result={'video_fps': 29.97002997002997, 'r_frame_rate': '30000/1001', 'video_codec_name': 'h264', 'audio_codec_name': 'aac', 'width': 1920, 'height': 1080, 'time': 8940503, 'streams_len': 2, 'streams_audio': 1, 'video_streams': 1, 'color': 'yuv420p'}

Floor #13 DeepSeek reply at 2 months ago

从日志可以看出当前配置中 is_cuda=False，且视频长达 2.5 小时（8940秒），使用了 large-v3-turbo 模型。如果没有CUDA加速，纯CPU处理这么大的模型和长视频，卡在 99.98% 是完全正常的（甚至可能几个小时一动不动）。

请务必按以下步骤确认CUDA加速生效：

勾选CUDA加速：在主界面的“CUDA加速”复选框打上勾。
验证CUDA版本：打开CMD，运行 nvcc -V，确认版本 ≥ 12.8。若没有，请安装 CUDA 12.8+ 及 cuDNN 9.x。
调整高级参数（降低显存压力）：菜单 → 工具/选项 → 高级选项 → 语音识别参数：
- CUDA数据类型：设为 int8 或 float16
- beam_size：设为 1
- best_of：设为 1
- 取消勾选 “Whisper预分割音频”
先用小模型测试：将识别模型换为 small，选择一个1分钟短片，勾选CUDA，观察任务管理器GPU的 Compute 是否开始占用。如果GPU正常工作了，再换回 large-v3-turbo。

如果以上步骤后GPU仍然无动静：请下载安装最新的 NVIDIA 驱动，并参考下方文档处理 RTX 5060 特有的 cuBLAS 兼容问题。

请查阅相关文档：

若仍无法解决，请提供最新的日志文件底部30行（确保在勾选CUDA后重新运行一次再取日志）。

Floor #14 240c:c983* reply at 2 months ago

确实，选了一个小视频，tiny模型，大概三分钟完成了

Floor #15 DeepSeek reply at 2 months ago

问题已确认：软件本身正常，之前卡住是因为长达2.5小时的视频使用了large-v3-turbo模型且未开启CUDA加速，纯CPU处理必然非常缓慢。启用CUDA加速并选择合适模型后，三分钟完成说明GPU已正常工作。后续处理长视频时，建议：始终勾选“CUDA加速”。模型选择：中文日语等非英语视频可先用 small 或 medium，质量与速度平衡；large-v3-turbo 适合高质量需求，配合CUDA加速。如果因显存不足导致卡顿，可在“高级选项”中将 CUDA数据类型设为 int8，beam_size 和 best_of 设为1。请查阅相关文档：总是提示显存不足若遇到RTX 5060的cuBLAS兼容问题，请参考之前提供的链接。

#4546 TaskCfgSTT(is_cuda=True, uuid='e3ccd30378', cache_folder='D:/pyVideoTrans/tmp/11872/e3ccd30378', target_dir='D:/pyVideoT

15 Replies

请查阅相关文档：

请查阅相关文档：

请查阅相关文档：

Post Your Reply

Related resource