#4532 高棉语,卡在resegment

114.220* Posted at: 1 hour ago 👁10

高棉语,卡在resegment

3 Replies

高棉语在whisper模型中属于低资源语言,识别准确度较低。resegment阶段卡住通常是由于语音识别结果不理想导致后续断句逻辑陷入死循环,或显存/内存不足。

解决方案:

  1. 检查日志定位具体错误
    打开 logs/ 文件夹下的最新日志文件,搜索 resegment 附近的报错信息,确认是“显存不足”、“内存溢出”还是“无有效识别结果”。
  2. 调整VAD参数以简化断句
    菜单-工具-高级选项-语音识别参数中:

    • 语音阈值设为 0.7(减少噪音干扰)
    • 最长语音持续秒数设为 10(避免过长片段)
    • 静音分割持续毫秒设为 300(加快分割)
    • 取消勾选合并过短字幕到邻近
  3. 释放系统资源

    • 关闭其他占用GPU/内存的程序
    • 若启用了二次识别,请取消勾选
    • 尝试将识别模型切换为 smallmedium(large-v3 对低资源语言反而可能更慢且易卡顿)
  4. 验证高棉语支持
    Whisper模型对高棉语有一定支持但效果有限。如需提高成功率,可尝试在高级选项-faster-whisper模型提示词中手动添加高棉语的提示词文本(例如高棉语常用词)。

若上述方法无效,请提供 logs/ 目录下最新的日志文件(复制底部30行)以便进一步分析。

请查阅相关文档:


Application started at 2026-05-12 21:30:19

First searching GPU...
[DEBUG] 返回缓存的编解码器 Windows-264: libx264
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=4s
[DEBUG] 返回缓存的编解码器 Windows-265: libx265
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='06789e0d77', cache_folder='E:/pyvideotrans/399/tmp/29532/06789e0d77', target_dir='C:/Users/Administrator/Desktop/_video_out/4be338ee7792ce34b84812b752e55cc7_raw-mp4', source_language='简体中文', source_language_code='zh-cn', source_sub='C:/Users/Administrator/Desktop/_video_out/4be338ee7792ce34b84812b752e55cc7_raw-mp4/zh-cn.srt', source_wav='E:/pyvideotrans/399/tmp/29532/06789e0d77/zh-cn.wav', source_wav_output='C:/Users/Administrator/Desktop/_video_out/4be338ee7792ce34b84812b752e55cc7_raw-mp4/zh-cn.m4a', target_language='km', target_language_code='km', target_sub='C:/Users/Administrator/Desktop/_video_out/4be338ee77
......
nc] Line=31 | 音频溢出截断 2368->2319 | [current_slot_audio_len=2368 slot_duration=2319] | Timeline: 59067 -> 61386
[DEBUG] [Audio-Sync] Line=32 | 音频溢出截断 1621->1566 | [current_slot_audio_len=1621 slot_duration=1566] | Timeline: 61386 -> 62952
[DEBUG] [Audio-Sync] Line=33 | 音频末尾补静音 604ms | [current_slot_audio_len=596 slot_duration=1200] | Timeline: 62952 -> 64152
[DEBUG] [Audio-Sync] Line=34 | 音频末尾补静音 573ms | [current_slot_audio_len=1493 slot_duration=2066] | Timeline: 64152 -> 66218
[DEBUG] [Audio-Sync] Line=35 | 音频末尾补静音 1037ms | [current_slot_audio_len=596 slot_duration=1633] | Timeline: 66218 -> 67851
[DEBUG] [Audio-Sync] Line=36 | 音频末尾补静音 1455ms | [current_slot_audio_len=678 slot_duration=2133] | Timeline: 67851 -> 69984
[DEBUG] [Audio-Sync] Line=37 | 音频末尾补静音 216ms | [current_slot_audio_len=1850 slot_duration=2066] | Timeline: 69984 -> 72050
[DEBUG] [Audio-Sync] Line=38 | 音频末尾补静音 789ms | [current_slot_audio_len=377 slot_duration=1166] | Timeline: 72050 -> 73216
[DEBUG] [Audio-Sync] Line=39 | 音频末尾补静音 920ms | [current_slot_audio_len=713 slot_duration=1633] | Timeline: 73216 -> 74849
[DEBUG] [Audio-Sync] Line=40 | 音频溢出截断 1949->1909 | [current_slot_audio_len=1949 slot_duration=1909] | Timeline: 74849 -> 76758
[DEBUG] [Audio-Sync] Line=41 | 音频末尾补静音 1911ms | [current_slot_audio_len=855 slot_duration=2766] | Timeline: 76758 -> 79524
[DEBUG] [Audio-Sync] Line=42 | 音频溢出截断 1196->1177 | [current_slot_audio_len=1196 slot_duration=1177] | Timeline: 79524 -> 80701
[DEBUG] [Audio-Sync] Line=43 | 音频溢出截断 1798->1762 | [current_slot_audio_len=1798 slot_duration=1762] | Timeline: 80701 -> 82463
[DEBUG] [Audio-Sync] Line=44 | 音频溢出截断 1824->1784 | [current_slot_audio_len=1824 slot_duration=1784] | Timeline: 82463 -> 84247
[DEBUG] [Audio-Sync] Line=45 | 音频溢出截断 1848->1820 | [current_slot_audio_len=1848 slot_duration=1820] | Timeline: 84247 -> 86067
[DEBUG] [Audio-Sync] Line=46 | 音频末尾补静音 486ms | [current_slot_audio_len=580 slot_duration=1066] | Timeline: 86067 -> 87133
[DEBUG] [Audio-Sync] Line=47 | 音频末尾补静音 5343ms | [current_slot_audio_len=1457 slot_duration=6800] | Timeline: 87133 -> 93933
[DEBUG] concat_txt='E:/pyvideotrans/399/tmp/29532/06789e0d77/final_audio_concat.txt',filelist[0]='E:/pyvideotrans/399/tmp/29532/06789e0d77/silence_head_0.wav'
[DEBUG] [Audio-Concat] 最终音频已生成: E:/pyvideotrans/399/tmp/29532/06789e0d77/target.wav
进入二次识别阶段
[DEBUG] 进入二次识别

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'km', 'audio_file': 'E:/pyvideotrans/399/tmp/29532/06789e0d77/recogn2pass-1778592900.8459287.wav', 'cache_folder': 'E:/pyvideotrans/399/tmp/29532/06789e0d77', 'model_name': 'large-v3-turbo', 'uuid': '06789e0d77', 'is_cuda': True, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': True}
[DEBUG] BaseRecogn 初始化

[DEBUG] faster_whisper实际使用计算精度:float32
[DEBUG] faster-whisper模式下,对large-v3-turbo模型返回的断句结果重新修正
[DEBUG] 断句结果重新修正完毕

从日志看,您已进入“二次识别”阶段,但可能卡在该步骤。高棉语属于低资源语言,faster-whisper large-v3-turbo 模型对高棉语识别准确度有限,二次识别是对配音音频再次转录,极易因匹配不到有效语音片段而陷入死循环或超时。

解决方案(按推荐顺序尝试):

  1. 关闭二次识别:在主界面取消勾选“二次识别”(或“recogn2pass”),直接合成视频,避免额外转录步骤。
  2. 调整二次识别参数:如果仍需二次识别,在菜单-工具-高级选项-语音识别参数中:

    • 选中 “Whisper预分割音频”
    • “最短语音持续毫秒” 设为 3000(避免过短片段)
    • “最长语音持续秒数” 设为 10(防止长段落卡死)
    • 将语音识别模型临时改为 tinybase(速度更快,降低卡死概率)
  3. 检查日志末尾是否有报错:您提供的日志结尾为 [DEBUG] 断句结果重新修正完毕,可能后续还有 ERRORCRITICAL 信息未显示。请提供 logs/ 文件夹中最新日志 底部30行 的完整内容,以便精确定位。

暂无法确定具体原因。请提供软件安装目录下的 logs/ 文件夹中最新的日志文件(复制底部约30行报错信息)以便分析。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource