#4583 我的笔记本是GeForce MX350显卡，只有2GB显存，动不动就报RuntimeError: CUDA failed with error out of memory纯cpu也太慢了，有没有办法让显卡发挥一点作用不至于爆显存

240e:362* Posted at: 21 days ago

我的笔记本是GeForce MX350显卡，只有2GB显存，动不动就报RuntimeError: CUDA failed with error out of memory
纯cpu也太慢了，有没有办法让显卡发挥一点作用不至于爆显存

Floor #1 DeepSeek reply at 21 days ago

这是由于您的显卡显存有限（2GB），而默认的 large-v3 模型需要 10GB+ 显存所致。可以在不放弃 GPU 加速的前提下，通过降低模型大小和精度参数来适配小显存。

解决方案

改用更小的 Whisper 模型
在主界面语音识别渠道选择 faster-whisper(本地)，模型改为 small 或 base。优先尝试 small，若仍爆显存则降为 base。
进入高级选项降低显存消耗
点击菜单栏 工具/选项 → 高级选项 → 找到 语音识别参数，进行以下修改：
- CUDA数据类型：改为 int8（最省显存，精度略有损失）
- 识别准确度beam_size：改为 1（原为 5，改为 1 可大幅降低显存占用）
- 识别准确度best_of：改为 1（原为 5）
- 启用上下文感知：取消勾选（设为 false）
开启 Whisper 预分割音频
在同一 语音识别参数 区域，勾选 Whisper预分割音频?。这将先把音频切成短句再送入模型，能显著降低长视频处理时的显存峰值。
关闭“二次识别”
若主界面勾选了 二次识别，请取消勾选（它会再占用一份显存）。
确保勾选 CUDA 加速
主界面右上角确认已勾选 CUDA加速。

请查阅相关文档：

Floor #2 240e:362* reply at 21 days ago

默认语音识别渠道中可部署本地的方法有2GB显存可以满足的吗

Floor #3 DeepSeek reply at 21 days ago

可以。使用 faster-whisper(本地) 渠道，选择 small 或 base 模型，同时在高级选项中将 CUDA 数据类型设为 int8，并关闭上下文感知、降低 beam_size/best_of，可以稳定运行在 2GB 显存上。

具体操作：

主界面语音识别渠道选 faster-whisper(本地)。
模型下拉选择 small（首选）或 base（若 still out-of-memory）。
进入菜单→工具/选项→高级选项：
- CUDA数据类型 → int8
- beam_size → 1
- best_of → 1
- 启用上下文感知 → 取消勾选
主界面确保勾选 CUDA加速。

这样可以在 2GB 显存下正常使用 GPU 加速。

Floor #4 240e:362* reply at 21 days ago

Huggingface_ASR 语音识别渠道，支持几个来自 huggingface 的模型和nvidia的一个英文模型
faster-whisper-xxl.exe：这是一个专为 Windows 用户设计的超大模型版本，识别效果更好。您需要自行下载 faster-whisper-xxl.exe 文件来配合使用。
whisper.cpp：这是一个使用 whipser.cpp 为后端的识别渠道。您需要自行部署whipser.cpp 文件来配合使用。
Parakeet-tdt 语音识别：由英伟达（NVIDIA）开源的识别模型。这需要您自行部署服务，然后在软件的设置菜单中填入您的 API 地址。
STT 语音识别 API：同样是一个需要您自行部署的开源项目，部署完成后将 API 地址填入软件即可使用。

Floor #5 DeepSeek reply at 21 days ago

对于 2GB 显存，更推荐使用 faster-whisper(本地) 的 small 或 base 模型，它们在质量和显存占用上平衡最佳。您提到的 HuggingFace_ASR 渠道（如 parakeet-ctc、kotoba-whisper）以及 faster-whisper-xxl.exe、whisper.cpp、Parakeet-tdt、STT API 等，均需额外部署且显存需求未明确针对 2GB 优化，可能仍有溢出风险。建议优先尝试 faster-whisper small/base + int8 + 低 beam_size，这是目前经验证最稳定的 2GB 显存方案。

Floor #6 240e:362* reply at 21 days ago

在线识别是不是就与显卡无关了

Floor #7 DeepSeek reply at 21 days ago

对的。选择在线语音识别渠道（如 OpenAI API、阿里百炼 Qwen3-ASR、字节火山极速版）后，语音数据会被上传到云端服务器进行处理，本地 CPU 仅负责数据传输和界面交互，完全不依赖本地显卡，也不会占用显存。只需确保网络通畅，并配置好相应的 API Key 即可。

Floor #8 2001:b030* reply at 21 days ago

语音识别阶段出错 [Google识别API(免费)] 网络连接失败
Traceback (most recent call last):
File "videotrans\task\job.py", line 105, in run
File "videotrans\task\trans_create.py", line 390, in recogn
File "videotrans\recognition\__init__.py", line 233, in run
File "videotrans\recognition\_base.py", line 143, in run
File "tenacity\__init__.py", line 338, in wrapped_f
File "tenacity\__init__.py", line 477, in call
File "tenacity\__init__.py", line 378, in iter
File "tenacity\__init__.py", line 400, in
File "concurrent\futures\_base.py", line 451, in result
File "concurrent\futures\_base.py", line 403, in __get_result
File "tenacity\__init__.py", line 480, in call
File "videotrans\recognition\_google.py", line 62, in _exec
File "speech_recognition\__init__.py", line 708, in recognize_google
File "urllib\request.py", line 216, in urlopen
File "urllib\request.py", line 519, in open
File "urllib\request.py", line 536, in _open
File "urllib\request.py", line 496, in _call_chain
File "urllib\request.py", line 1377, in http_open
File "urllib\request.py", line 1352, in do_open
File "http\client.py", line 1375, in getresponse
File "http\client.py", line 337, in begin
File "http\client.py", line 234, in parse_headers
File "http\client.py", line 214, in _read_headers
File "socket.py", line 717, in readinto
ConnectionResetError: [WinError 10054] 远程主机强迫关闭了一个现有的连接。

Floor #9 DeepSeek reply at 21 days ago

这是由于网络连接被远程主机关闭，Google 语音识别 API 在中国大陆地区无法直接访问。需要在软件中配置有效的网络代理。

解决方案：

在主界面找到 网络代理地址 输入框，填写你的代理地址，格式如 http://127.0.0.1:10808（端口号根据你的代理客户端设置）。
如果无需代理或不确定如何配置，建议更换语音识别渠道，例如使用 阿里百炼 Qwen3-ASR、字节火山极速版 或本地 faster-whisper 渠道。

Floor #10 2001:b030* reply at 21 days ago

网络代理地址写了，这个报错是识别了几行之后出现的

Floor #11 DeepSeek reply at 21 days ago

这是由于 Google 语音识别 API 对来自同一 IP 的频繁请求存在限流策略，导致识别几行后连接被重置。即使配置了代理，持续的高并发请求仍可能触发主机的防攻击机制。解决方案：降低语音识别请求频率点击菜单栏工具/选项 → 高级选项 → 找到语音识别参数（如果没有专门的并发设置，可检查翻译后暂停秒或语音识别暂停秒）。如果没有该参数，可尝试将单视频翻译暂停倒计时设为 2-3 秒。但更直接的方法是更换渠道。更换更稳定的在线识别渠道推荐使用阿里百炼 Qwen3-ASR（国产，无需代理）或字节火山极速版，这些渠道对国内网络友好且不易断连。如果仍要用 Google，请确保代理服务器稳定且无连接数限制，并尝试降低并发或增加暂停（若高级选项中存在相关参数，如 “识别渠道每批字幕行数” 调整为 1）。

Floor #12 2001:b030* reply at 21 days ago

无效的值或参数：invalid literal for int() with base 10: '3,000,0000':Traceback (most recent call last):
File "videotrans\translator\_base.py", line 97, in run
File "videotrans\translator\_base.py", line 161, in _run_srt
File "tenacity\__init__.py", line 338, in wrapped_f
File "tenacity\__init__.py", line 477, in call
File "tenacity\__init__.py", line 378, in iter
File "tenacity\__init__.py", line 421, in exc_check
tenacity.RetryError: RetryError[]

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "videotrans\util\TestSrtTrans.py", line 19, in run
File "videotrans\translator\__init__.py", line 1057, in run
File "videotrans\translator\_base.py", line 100, in run
File "tenacity\__init__.py", line 480, in call
File "videotrans\translator\_gemini.py", line 65, in _item_task
ValueError: invalid literal for int() with base 10: '3,000,0000'

Floor #13 DeepSeek reply at 21 days ago

这是由于某个配置项（很可能是翻译渠道的“最大 token 数”或“上下文限制”参数）填写了格式错误的数字 3,000,0000（含逗号且数字错误），导致程序无法将其转换为整数。解决方案：检查翻译渠道设置点击菜单栏工具/选项 → 进入对应的翻译渠道设置（如 Gemini、OpenAI 等）。查找类似最大 token 数、上下文限制等需要填写数字的字段。将该值改为正确的纯整数，例如 4096 或 8192，不要带逗号，不要有多余零。如果不确定具体是哪个参数，请将高级选项中所有数字输入框（如 AI 翻译每批字幕行数、翻译后暂停秒等）都检查一遍，确保不包含逗号、空格或非数字字符。重置默认值或重新填写建议将该字段清空或恢复默认值，然后重新填写正确的整数（例如 4096）。保存后重启软件再试。

Floor #14 240e:362* reply at 21 days ago

转录mp3音频会比mp4视频快吗

Floor #15 DeepSeek reply at 21 days ago

是的，通常情况下转录 MP3 音频会比转录 MP4 视频更快。因为 MP3 已经是纯音频文件，软件可以跳过从视频中分离音频和解码视频流的步骤，直接进入语音识别阶段。而处理 MP4 视频还需要额外的音视频分离（通过 ffmpeg）以及可能的视频格式检查等开销，尤其是在视频长、分辨率高或编码复杂时，这部分时间会更明显。但具体速度差异还取决于文件大小、时长以及所选语音识别模型的配置。

#4583 我的笔记本是GeForce MX350显卡，只有2GB显存，动不动就报RuntimeError: CUDA failed with error out of memory纯cpu也太慢了，有没有办法让显卡发挥一点作用不至于爆显存

15 Replies

解决方案

请查阅相关文档：

Post Your Reply

Related resource