#4511 识别到文字之后卡在resegment:100.21%一直不动

58.152* Posted at: 3 hours ago 👁34

识别到文字之后卡在resegment:100.21%一直不动

15 Replies

卡在 resegment 阶段通常是因为程序正在等待 AI 大模型(如 OpenAI、DeepSeek 等)返回断句结果,可能遇到了网络超时、API 额度耗尽、或者配置的错误渠道无法连接。

解决方法:

  1. 检查 LLM 断句渠道配置:点击菜单 → 工具/选项 → 高级选项 → 找到“LLM重新断句所用AI渠道”,确认其填写的 API Key 和模型名称是否正确,网络代理是否有效。
  2. 暂时关闭 LLM 重新断句:在高级选项中,将“LLM重新断句每批字幕行数”设为 0,或直接在语音识别参数中将“rephrase”改为 0(不处理),即可跳过该步骤。
  3. 查看日志:打开软件目录下的 logs/ 文件夹,找到最新日期的日志文件,复制底部约 30 行报错信息,可以进一步定位卡死原因。

请查阅相关文档:

如果以上仍无法解决,请提供日志内容以便分析。


Application started at 2026-05-10 01:58:25

First searching GPU...
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'h264' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: h264_nvenc...
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=2s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 硬件编码器 'h264_nvenc' 不可用
[DEBUG] 正在测试编码器是否可用: h264_qsv...
[DEBUG] 硬件编码器 'h264_qsv' 不可用
[DEBUG] 正在测试编码器是否可用: h264_amf...
[DEBUG] 硬件编码器 'h264_amf' 不可用
[DEBUG] 所有硬件加速器均未通过测试。将使用软件编码器: libx264
[DEBUG] 最终确定使用的编码器: libx264
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'hevc' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: hevc_nvenc...
[DEBUG] 硬件编码器 'hevc_nvenc' 不可用
[DEBUG] 正在测试编码器是否可用: hevc_qsv...
[DEBUG] 硬件编码器 'hevc_qsv' 不可用
[DEBUG] 正在测试编码器是否可用: hevc_amf...
[DEBUG] 硬件编码器 'hevc_amf' 不可用
[DEBUG] 所有硬件加速器均未通过测试。将使用软件编码器: libx265
[DEBUG] 最终确定使用的编码器: libx265
self.trans_thread=50,self.aisendsrt=True,self.translate_type=4
[DEBUG] [deepseek]响应:
......
streams_len': 2, 'streams_audio': 1, 'video_streams': 1, 'color': 'yuv420p'}
[DEBUG] [job] 进入执行语音识别阶段 trk.cfg=TaskCfgVTT(is_cuda=True, uuid='aa7f80446b', cache_folder='D:/fanyi/win-pyvideotrans-v3.99-0508/tmp/5216/aa7f80446b', target_dir='D:/shipin/_video_out/SNOS-124 那个曾经人见人爱、平凡无奇的女孩,如今离成为伟大的女性又更近了一步。她将体验充满“第一次”的-ts', source_language='日语', source_language_code='ja', source_sub='D:/shipin/_video_out/SNOS-124 那个曾经人见人爱、平凡无奇的女孩,如今离成为伟大的女性又更近了一步。她将体验充满“第一次”的-ts/ja.srt', source_wav='D:/fanyi/win-pyvideotrans-v3.99-0508/tmp/5216/aa7f80446b/ja.wav', source_wav_output='D:/shipin/_video_out/SNOS-124 那个曾经人见人爱、平凡无奇的女孩,如今离成为伟大的女性又更近了一步。她将体验充满“第一次”的-ts/ja.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='D:/shipin/_video_out/SNOS-124 那个曾经人见人爱、平凡无奇的女孩,如今离成为伟大的女性又更近了一步。她将体验充满“第一次”的-ts/zh-cn.srt', target_wav='D:/fanyi/win-pyvideotrans-v3.99-0508/tmp/5216/aa7f80446b/target.wav', target_wav_output='D:/shipin/_video_out/SNOS-124 那个曾经人见人爱、平凡无奇的女孩,如今离成为伟大的女性又更近了一步。她将体验充满“第一次”的-ts/zh-cn.m4a', name='D:/shipin/SNOS-124 那个曾经人见人爱、平凡无奇的女孩,如今离成为伟大的女性又更近了一步。她将体验充满“第一次”的.ts', noextname='SNOS-124 那个曾经人见人爱、平凡无奇的女孩,如今离成为伟大的女性又更近了一步。她将体验充满“第一次”的', basename='SNOS-124 那个曾经人见人爱、平凡无奇的女孩,如今离成为伟大的女性又更近了一步。她将体验充满“第一次”的.ts', ext='ts', dirname='D:/shipin', shound_del_name=None, translate_type=4, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='ja', recogn_type=0, model_name='large-v3-turbo', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='D:/shipin/_video_out/SNOS-124 那个曾经人见人爱、平凡无奇的女孩,如今离成为伟大的女性又更近了一步。她将体验充满“第一次”的-ts/SNOS-124 那个曾经人见人爱、平凡无奇的女孩,如今离成为伟大的女性又更近了一步。她将体验充满“第一次”的.mp4', novoice_mp4='D:/fanyi/win-pyvideotrans-v3.99-0508/tmp/5216/aa7f80446b/novoice.mp4', is_separate=False, embed_bgm=True, instrument=None, vocal='D:/fanyi/win-pyvideotrans-v3.99-0508/tmp/5216/aa7f80446b/vocal.wav', back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=True, output_srt=0, copysrt_rawvideo=False, loop_backaudio=1, backaudio_volume=0.8)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'ja', 'audio_file': 'D:/fanyi/win-pyvideotrans-v3.99-0508/tmp/5216/aa7f80446b/ja.wav', 'cache_folder': 'D:/fanyi/win-pyvideotrans-v3.99-0508/tmp/5216/aa7f80446b', 'model_name': 'large-v3-turbo', 'uuid': 'aa7f80446b', 'is_cuda': True, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化

[DEBUG] GPU进程池:max_workers=1
[DEBUG] faster_whisper原始auto|default默认精度:default
[DEBUG] faster_whisper实际使用计算精度:int8_float16
[DEBUG] faster-whisper模式下,对large-v3-turbo模型返回的断句结果重新修正
[DEBUG] 断句结果重新修正完毕

卡在 resegment 的原因通常是语音识别后的字幕后处理(如断句修正、合并短字幕)耗时过长,或后续步骤因文件路径、显存等问题阻塞。从日志看,你已关闭 LLM 重新断句(rephrase=0),且使用了 tiqu(提取字幕)模式,但启用了 recogn2pass=True(二次识别),这可能与模式冲突导致卡死。

解决方案

  1. 取消二次识别
    在主界面勾选“二次识别”会导致在提取模式下无意义地等待配音后的识别,请将其关闭。
  2. 检查文件路径长度
    你的视频文件名和目录极长(超过200字符),Windows 命令行有长度限制。请将视频移到 D:\videos\ 等浅层目录并重命名为简短英文名(如 test.mp4)。
  3. 耐心等待或查看资源占用
    large-v3-turbo 模型在处理长视频后,断句修正可能需要数分钟,打开任务管理器观察 CPU/GPU 是否仍在活动,若持续无变化则强制结束并重试。
  4. 清理临时文件夹
    删除 tmp 文件夹下所有内容,防止残留缓存干扰。
  5. 查看日志完整尾部
    从日志第 30 行往后可能包含错误信息,请复制卡住后一段时间的新日志内容提供进一步分析。

请查阅相关文档:

large-v3-turbo 模型在处理长视频后,断句修正能否调用GPU进行

不能。语音识别后的断句修正(resegment)是由 CPU 执行的字幕后处理逻辑(合并短句、修正时间轴等),无法调用 GPU 加速。只有语音识别阶段(ASR 模型推理)才会大量使用 GPU。

你日志中显示 [DEBUG] 断句结果重新修正完毕 已经完成,卡住并非由断句修正引起。真正的原因是文件路径过长、二次识别(recogn2pass=True)在提取模式下导致阻塞,或显卡显存耗尽。请按照上一轮建议操作。

i5-12600kf语音识别用的模型最好用哪个

对于 i5-12600KF(无独立显卡或未启用 CUDA 加速)的 CPU,语音识别速度受限于处理器算力,建议选择 faster-whisper mediumsmall 模型。

  • medium:在准确率和速度间取得较好平衡,适合日语识别。
  • small:速度更快,但准确率稍低,适合短时或对质量要求不高的视频。
  • 不建议使用 large-v3 或 large-v3-turbo,因为它们在 CPU 上运行极慢,且容易因内存不足卡死。

如果仍需使用 large 系列,请确保开启 VAD 并缩短最长语音持续秒数(建议 6 秒)、降低 beam_size 和 best_of 到 1,否则大概率超时或崩溃。

在软件主界面选择 faster-whisper(本地),模型下拉选 medium,并取消勾选“二次识别”和“降噪”以节省资源。

i5-12600kf和显卡3080 10g用哪个模型

推荐使用 faster-whisper large-v3-turbolarge-v3。3080 10GB 显存可流畅运行 large-v3-turbo,且准确率较好。如果遇到显存不足(如 Unable to allocate 错误),可改为 medium 模型,并做以下优化:在菜单 → 工具/选项 → 高级选项 → 语音识别参数 中:- 将 CUDA数据类型 设为 int8- 将 beam_size 设为 1- 将 best_of 设为 1- 将 最长语音持续秒数 设为 6- 勾选 Whisper预分割音频以上调整可大幅降低显存占用,同时保持较高识别速度。

按照新的设置现在卡在分离音频结束等待识别

卡在“分离音频结束等待识别”通常是因为语音识别模型加载失败或音频文件读取阻塞。最常见原因是CUDA环境未正确配置、文件路径过长、或显存不足。

请按以下步骤排查:

  1. 查看日志确认卡死位置
    打开软件 logs/ 文件夹下最新日志,搜索 [recognition]faster_whisper 相关字样。如果日志最后几行是 BaseRecogn 初始化 后无进展,则模型加载卡住。请直接将日志底部约30行内容粘贴回复,我帮你定位。
  2. 关闭CUDA加速测试
    先取消勾选主界面的“CUDA加速”,再次启动任务。如果问题消失,则说明CUDA环境或驱动不兼容。
    确认你的显卡驱动支持CUDA 12.8+并在CMD中运行 nvcc -V 检查版本,同时安装配套cuDNN 9.x。
  3. 缩短并简化文件路径
    你的视频文件名非常长(包含日文、特殊字符),且视频为 .ts 格式。建议:

    • 将视频移动到 D:\videos\ 这类浅层目录
    • 重命名为简短的英文名,如 test.ts
    • 或在“选择音频或视频”时勾选“清理已生成”强制重新处理
  4. 降低模型占用及启用预分割
    高级选项 → 语音识别参数中:

    • 模型改为 medium 并保持 int8 + beam_size=1
    • 勾选 Whisper预分割音频
    • 将“最长语音持续秒数”设为 6
  5. 重启软件并清理临时文件
    关闭软件,删除 tmp 文件夹下的所有内容,再启动重试。

如果以上均无效,请提供日志,我会进一步分析。

使用deepseek 翻译,模型选择v4 flash,ai翻译渠道每批字幕行数9999,现在有1000多的日语要翻译,卡在翻译5

卡在翻译 5,通常是因为 每批字幕行数设为 9999 导致 DeepSeek API 请求超时或 token 超出限制。DeepSeek v4 flash 虽然有较大上下文,但 1000 多条完整字幕(含时间轴)一次性发送极易超时或被拒绝。请按以下步骤解决:1. 减少每批字幕行数 在菜单 → 工具/选项 → 高级选项 → 字幕翻译调整 中,将“AI翻译渠道每批字幕行数”改为 20~50,保存后重新处理。2. 取消“发送完整字幕” 回到主界面,取消勾选“发送完整字幕”选项,改为按行发送,大幅降低每次请求的 token 消耗。3. 降低并发与增加暂停 在同一个高级选项中,将“翻译后暂停秒”设为 2~5 秒,并将“最大进程数”暂时设为 1,避免多任务同时请求导致限流。4. 检查 DeepSeek 配置 确保“菜单→翻译设置→DeepSeek”中的 API Key 正确,模型名称写为 deepseek-chat(或官方提供的 v4 flash 标识,请查阅 DeepSeek 文档确认)。5. 查看日志尾部 打开 logs 文件夹最新日志,搜索 DeepSeekHTTP,复制底部 30 行报错信息,可定位具体是超时还是拒绝,方便进一步调整。若仍无法解决,请提供日志片段。

要求最快速翻译出结果的最大兼容翻译设置

为了最快速且稳定地完成翻译适配,建议按以下参数设置,可大幅减少卡死、超时、限流等问题,同时保持较高吞吐量:

菜单 → 工具/选项 → 高级选项 → 字幕翻译调整

  • AI翻译渠道每批字幕行数20(不要超过30,避免单次请求超时)
  • 翻译后暂停秒1(防止连续请求被限流)
  • 最大进程数1(确保单任务串行,避免资源竞争)

主界面

  • 取消勾选 “发送完整字幕”(改为逐行发送,大幅降低token消耗)
  • 翻译渠道:保持 DeepSeek,并在 菜单→翻译设置→DeepSeek 中:

    • API URL:https://api.deepseek.com
    • API Key:填写你的密钥
    • 模型:deepseek-chat(v4 flash 的模型名请咨询官方,若不确定填 deepseek-chat

高级选项中其他相关

  • AI翻译模型温度值0(固定结果,避免耗时计算)

为什么这样最快且最兼容?

  • 每批 20 行 + 不发送完整字幕,单次请求 token 极少,DeepSeek 响应极快(1-3秒)。
  • 暂停 1 秒,几乎不影响总时间,但能避开 API 限流容错。
  • 单进程串行避免了并发冲突导致的内存/显存溢出。

如果你的网络稳定且 DeepSeek 账户未受限,可尝试将“每批字幕行数”提升至 50、“暂停秒”设为 0.5,但需做好可能偶发超时的心理准备。建议先用上述保守设置完成一次任务,确认流畅后再逐步调优。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource