#4583 我的笔记本是GeForce MX350显卡,只有2GB显存,动不动就报RuntimeError: CUDA failed with error out of memory纯cpu也太慢了,有没有办法让显卡发挥一点作用不至于爆显存

240e:362* Posted at: 5 hours ago 👁33

我的笔记本是GeForce MX350显卡,只有2GB显存,动不动就报RuntimeError: CUDA failed with error out of memory
纯cpu也太慢了,有没有办法让显卡发挥一点作用不至于爆显存

15 Replies

这是由于您的显卡显存有限(2GB),而默认的 large-v3 模型需要 10GB+ 显存所致。可以在不放弃 GPU 加速的前提下,通过降低模型大小和精度参数来适配小显存。


解决方案

  1. 改用更小的 Whisper 模型
    在主界面语音识别渠道选择 faster-whisper(本地),模型改为 smallbase。优先尝试 small,若仍爆显存则降为 base
  2. 进入高级选项降低显存消耗
    点击菜单栏 工具/选项高级选项 → 找到 语音识别参数,进行以下修改:

    • CUDA数据类型:改为 int8(最省显存,精度略有损失)
    • 识别准确度beam_size:改为 1(原为 5,改为 1 可大幅降低显存占用)
    • 识别准确度best_of:改为 1(原为 5)
    • 启用上下文感知:取消勾选(设为 false
  3. 开启 Whisper 预分割音频
    在同一 语音识别参数 区域,勾选 Whisper预分割音频?。这将先把音频切成短句再送入模型,能显著降低长视频处理时的显存峰值。
  4. 关闭“二次识别”
    若主界面勾选了 二次识别,请取消勾选(它会再占用一份显存)。
  5. 确保勾选 CUDA 加速
    主界面右上角确认已勾选 CUDA加速

请查阅相关文档:

默认语音识别渠道中可部署本地的方法有2GB显存可以满足的吗

可以。使用 faster-whisper(本地) 渠道,选择 small 或 base 模型,同时在高级选项中将 CUDA 数据类型设为 int8,并关闭上下文感知、降低 beam_size/best_of,可以稳定运行在 2GB 显存上。

具体操作:

  1. 主界面语音识别渠道选 faster-whisper(本地)
  2. 模型下拉选择 small(首选)或 base(若 still out-of-memory)。
  3. 进入菜单→工具/选项→高级选项:

    • CUDA数据类型 → int8
    • beam_size → 1
    • best_of → 1
    • 启用上下文感知 → 取消勾选
  4. 主界面确保勾选 CUDA加速

这样可以在 2GB 显存下正常使用 GPU 加速。

Huggingface_ASR 语音识别渠道 ,支持几个来自 huggingface 的模型和nvidia的一个英文模型
faster-whisper-xxl.exe:这是一个专为 Windows 用户设计的超大模型版本,识别效果更好。您需要自行下载 faster-whisper-xxl.exe 文件来配合使用。
whisper.cpp:这是一个使用 whipser.cpp 为后端的识别渠道。您需要自行部署whipser.cpp 文件来配合使用。
Parakeet-tdt 语音识别:由英伟达(NVIDIA)开源的识别模型。这需要您自行部署服务,然后在软件的设置菜单中填入您的 API 地址。
STT 语音识别 API:同样是一个需要您自行部署的开源项目,部署完成后将 API 地址填入软件即可使用。

对于 2GB 显存,更推荐使用 faster-whisper(本地) 的 small 或 base 模型,它们在质量和显存占用上平衡最佳。您提到的 HuggingFace_ASR 渠道(如 parakeet-ctc、kotoba-whisper)以及 faster-whisper-xxl.exe、whisper.cpp、Parakeet-tdt、STT API 等,均需额外部署且显存需求未明确针对 2GB 优化,可能仍有溢出风险。建议优先尝试 faster-whisper small/base + int8 + 低 beam_size,这是目前经验证最稳定的 2GB 显存方案。

在线识别是不是就与显卡无关了

对的。选择在线语音识别渠道(如 OpenAI API、阿里百炼 Qwen3-ASR、字节火山极速版)后,语音数据会被上传到云端服务器进行处理,本地 CPU 仅负责数据传输和界面交互,完全不依赖本地显卡,也不会占用显存。只需确保网络通畅,并配置好相应的 API Key 即可。

语音识别阶段出错 [Google识别API(免费)] 网络连接失败
Traceback (most recent call last):
File "videotrans\task\job.py", line 105, in run
File "videotrans\task\trans_create.py", line 390, in recogn
File "videotrans\recognition\__init__.py", line 233, in run
File "videotrans\recognition\_base.py", line 143, in run
File "tenacity\__init__.py", line 338, in wrapped_f
File "tenacity\__init__.py", line 477, in call
File "tenacity\__init__.py", line 378, in iter
File "tenacity\__init__.py", line 400, in
File "concurrent\futures\_base.py", line 451, in result
File "concurrent\futures\_base.py", line 403, in __get_result
File "tenacity\__init__.py", line 480, in call
File "videotrans\recognition\_google.py", line 62, in _exec
File "speech_recognition\__init__.py", line 708, in recognize_google
File "urllib\request.py", line 216, in urlopen
File "urllib\request.py", line 519, in open
File "urllib\request.py", line 536, in _open
File "urllib\request.py", line 496, in _call_chain
File "urllib\request.py", line 1377, in http_open
File "urllib\request.py", line 1352, in do_open
File "http\client.py", line 1375, in getresponse
File "http\client.py", line 337, in begin
File "http\client.py", line 234, in parse_headers
File "http\client.py", line 214, in _read_headers
File "socket.py", line 717, in readinto
ConnectionResetError: [WinError 10054] 远程主机强迫关闭了一个现有的连接。

这是由于网络连接被远程主机关闭,Google 语音识别 API 在中国大陆地区无法直接访问。需要在软件中配置有效的网络代理。

解决方案:

  1. 在主界面找到 网络代理地址 输入框,填写你的代理地址,格式如 http://127.0.0.1:10808(端口号根据你的代理客户端设置)。
  2. 如果无需代理或不确定如何配置,建议更换语音识别渠道,例如使用 阿里百炼 Qwen3-ASR字节火山极速版 或本地 faster-whisper 渠道。

网络代理地址 写了,这个报错是识别了几行之后出现的

这是由于 Google 语音识别 API 对来自同一 IP 的频繁请求存在限流策略,导致识别几行后连接被重置。即使配置了代理,持续的高并发请求仍可能触发主机的防攻击机制。解决方案:降低语音识别请求频率 点击菜单栏 工具/选项 → 高级选项 → 找到 语音识别参数(如果没有专门的并发设置,可检查 翻译后暂停秒 或 语音识别暂停秒)。如果没有该参数,可尝试将 单视频翻译暂停倒计时 设为 2-3 秒。但更直接的方法是更换渠道。更换更稳定的在线识别渠道 推荐使用 阿里百炼 Qwen3-ASR(国产,无需代理)或 字节火山极速版,这些渠道对国内网络友好且不易断连。如果仍要用 Google,请确保代理服务器稳定且无连接数限制,并尝试降低并发或增加暂停(若高级选项中存在相关参数,如 “识别渠道每批字幕行数” 调整为 1)。

无效的值或参数:invalid literal for int() with base 10: '3,000,0000':Traceback (most recent call last):
File "videotrans\translator\_base.py", line 97, in run
File "videotrans\translator\_base.py", line 161, in _run_srt
File "tenacity\__init__.py", line 338, in wrapped_f
File "tenacity\__init__.py", line 477, in call
File "tenacity\__init__.py", line 378, in iter
File "tenacity\__init__.py", line 421, in exc_check
tenacity.RetryError: RetryError[]

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "videotrans\util\TestSrtTrans.py", line 19, in run
File "videotrans\translator\__init__.py", line 1057, in run
File "videotrans\translator\_base.py", line 100, in run
File "tenacity\__init__.py", line 480, in call
File "videotrans\translator\_gemini.py", line 65, in _item_task
ValueError: invalid literal for int() with base 10: '3,000,0000'

这是由于某个配置项(很可能是翻译渠道的“最大 token 数”或“上下文限制”参数)填写了格式错误的数字 3,000,0000(含逗号且数字错误),导致程序无法将其转换为整数。解决方案:检查翻译渠道设置 点击菜单栏 工具/选项 → 进入对应的翻译渠道设置(如 Gemini、OpenAI 等)。查找类似 最大 token 数、上下文限制 等需要填写数字的字段。将该值改为正确的纯整数,例如 4096 或 8192,不要带逗号,不要有多余零。如果不确定具体是哪个参数,请将 高级选项 中所有数字输入框(如 AI 翻译每批字幕行数、翻译后暂停秒 等)都检查一遍,确保不包含逗号、空格或非数字字符。重置默认值或重新填写 建议将该字段清空或恢复默认值,然后重新填写正确的整数(例如 4096)。保存后重启软件再试。

转录mp3音频会比mp4视频快吗

是的,通常情况下转录 MP3 音频会比转录 MP4 视频更快。因为 MP3 已经是纯音频文件,软件可以跳过从视频中分离音频和解码视频流的步骤,直接进入语音识别阶段。而处理 MP4 视频还需要额外的音视频分离(通过 ffmpeg)以及可能的视频格式检查等开销,尤其是在视频长、分辨率高或编码复杂时,这部分时间会更明显。但具体速度差异还取决于文件大小、时长以及所选语音识别模型的配置。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource