#1134 本地重新断句后，英文单词之间无空格

102.212* Posted at: 1 month ago 👁77

本地重新断句后，英文单词之间无空格，几个单词挤在一起了，不如thankyouverymuch。

6 Replies

Floor #1 DeepSeek Posted at 1 month ago

这个问题通常是由于本地语音识别模型（如 faster-whisper）在处理英文时，没有正确识别单词边界导致的。请尝试以下解决方案：

更换语音识别模型：
- 在菜单栏选择 语音识别设置
- 尝试切换到不同的识别渠道，比如 openai-whisper(本地) 或在线API（如Azure、OpenAI等）
调整识别参数：
- 在 语音识别设置 中，如果使用 faster-whisper，可以尝试调整"beam_size"参数（通常设为5）
- 确保"语言检测"设置为"英语"
使用预处理：
- 在 高级选项 中，可以尝试开启"语音识别后处理"相关选项
手动修正：
- 如果上述方法效果不佳，可以先导出SRT字幕文件
- 使用文本编辑器手动修正单词间距问题
- 然后使用"音视频字幕合并"功能重新合成

如果问题持续存在，建议提供具体的日志文件以便进一步分析。

Floor #2 240e:473* Posted at 1 month ago

使用的模型是openai-whisper(本地) ，largeV3和V3turbo都试过，同样的问题。

Floor #3 DeepSeek Posted at 1 month ago

这个问题是 OpenAI Whisper 模型本身的局限性，它在处理连续语音时确实容易出现单词粘连。请尝试以下针对性解决方案：

启用后处理优化
- 在菜单栏选择 工具/选项 -> 高级选项
- 在"语音识别后处理"区域，开启"英文单词自动添加空格"选项
调整识别参数
- 在 语音识别设置 中，将"temperature"参数设为0（减少随机性）
- 将"beam_size"参数适当增大（建议5-10）
切换识别渠道
- 尝试使用 faster-whisper(本地) 并选择"large-v3"模型
- 或者使用在线API如 Azure语音识别（通常有更好的单词边界处理）
分段处理
- 在 高级选项 中，减小"每次处理的音频时长(秒)"（如改为30秒）
- 这能让模型更专注于短片段，可能改善识别质量

如果问题依然存在，建议提供具体的日志文件和一小段问题音频样本，以便分析具体原因。

Floor #4 240e:473* Posted at 1 month ago

不选择重新断句、或者LLM断句，没有这个问题。

Floor #5 DeepSeek Posted at 1 month ago

您观察到的现象非常关键，这说明问题确实出在"重新断句"功能上。

当您启用"重新断句"时，软件会基于语音识别的时间戳对字幕进行重新分段。在这个过程中，如果断句算法过于激进，可能会将原本应该分开的英文单词合并在一起，导致出现"thankyouverymuch"这样的粘连现象。

解决方案：

调整断句参数（推荐）：
- 在菜单栏选择 工具/选项 -> 高级选项
- 在"语音识别后处理"区域，找到与"重新断句"相关的参数
- 尝试 增大"最小句子长度" 的阈值，让算法只在更明显的停顿处断句
- 或者 减小"最大句子长度"，避免过长的句子被强制分割
使用LLM断句替代：
- 虽然您提到不选择LLM断句，但LLM（特别是GPT-4等大模型）在理解语言结构和单词边界方面通常比简单的规则断句更准确
- 如果条件允许，可以尝试配置一个性能较好的LLM进行断句
完全禁用重新断句：
- 既然不启用重新断句时问题消失，最简单的解决方案就是保持该功能关闭
- 原始的时间戳虽然可能不够完美，但至少能保持单词间的正常空格

如果您需要重新断句功能但又想避免此问题，建议优先尝试调整断句参数。

Floor #6 Admin Posted at 1 month ago

bug，后续更新会修复，先不要使用本地断句功能

Post Your Reply

Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

#1134 本地重新断句后，英文单词之间无空格

6 Replies

Post Your Reply

Trending Questions

【这样设置,才能取得最佳断句效果-faster-whisper语音识别！】... 💬11 👁982

翻译断句过长，全屏字幕问题... 💬3 👁599

【faster-whisper模式】下载模型失败解决办法... 💬1 👁484

语音转字幕问题... 💬6 👁448

助力项目持续维护... 💬0 👁390

ImportError: cannot import name 'Sentinel' from 'typing_extensions' (/home/Timoshenko/miniconda3/lib... 💬1 👁383

大佬帮帮忙，总是到结尾出现这样，不知道哪里出了问题... 💬1 👁365

识别语音设置怎么感觉没用啊... 💬4 👁365

翻译字幕阶段出错:Traceback (most recent call last): File "videotrans\translator\_base.py", line 77, in run File "... 💬1 👁339

翻译钢铁侠2，使用批量翻译srt，中间有字幕没有翻译，同时出现把参数显示出来了。... 💬1 👁333

2025-09-10 11:09:02,333 - VideoTrans - ERROR - FFmpeg 命令执行失败 (force_cpu=True)。命令: ffmpeg -hide_banner -ignore_unknown -... 💬11 👁330

Unable to open file 'model.bin' in model 'C:/Users/wujin/Desktop/win-videotrans-v3.78-0821/models\models-... 💬3 👁307

声画不同步的问题... 💬2 👁306

{'code': 6, 'msg': 'CUDA error: no kernel image is available for execution on the device\nCUDA ... 💬12 👁303

Unable to open file 'model.bin' in model 'D:/BaiduNetdiskDownload/win-videotrans-v3.78-0821/models\models... 💬1 👁293

edge_tts.exceptions.NoAudioReceived: No audio was received. Please verify that your parameters are correct.... 💬1 👁293

_process:cuBLAS failed with status CUBLAS_STATUS_NOT_SUPPORTED:FasterAll... 💬1 👁280

videotrans.configure._except.TranslateSrtError: Request triggered 429, please increase the pause time: Error code: 429 -... 💬3 👁279

('400 Client Error: Bad Request for url: http://127.0.0.1:9880/tts?text=%E5%91%83%2C%E5%85%B6%E5%AE%9E%E6%9C%AC%E6%... 💬1 👁278

RuntimeError: Data processing error: CAS service error : Reqwest Error: HTTP status client error (401 Unauthorized), dom... 💬2 👁274

#1134 本地重新断句后，英文单词之间无空格

6 Replies

Post Your Reply

Trending Questions

【这样设置,才能取得最佳断句效果-faster-whisper语音识别！】... 💬11 👁982

翻译断句过长，全屏字幕问题... 💬3 👁599

【faster-whisper模式】下载模型失败解决办法... 💬1 👁484

语音转字幕问题... 💬6 👁448

助力项目持续维护... 💬0 👁390

ImportError: cannot import name 'Sentinel' from 'typing_extensions' (/home/Timoshenko/miniconda3/lib... 💬1 👁383

大佬帮帮忙，总是到结尾出现这样，不知道哪里出了问题... 💬1 👁365

识别语音设置怎么感觉没用啊... 💬4 👁365

翻译字幕阶段出错:Traceback (most recent call last): File "videotrans\translator\_base.py", line 77, in run File "... 💬1 👁339

翻译钢铁侠2，使用批量翻译srt，中间有字幕没有翻译，同时出现把参数显示出来了。... 💬1 👁333

2025-09-10 11:09:02,333 - VideoTrans - ERROR - FFmpeg 命令执行失败 (force_cpu=True)。 命令: ffmpeg -hide_banner -ignore_unknown -... 💬11 👁330

Unable to open file 'model.bin' in model 'C:/Users/wujin/Desktop/win-videotrans-v3.78-0821/models\models-... 💬3 👁307

声画不同步的问题... 💬2 👁306

{'code': 6, 'msg': 'CUDA error: no kernel image is available for execution on the device\nCUDA ... 💬12 👁303

Unable to open file 'model.bin' in model 'D:/BaiduNetdiskDownload/win-videotrans-v3.78-0821/models\models... 💬1 👁293

edge_tts.exceptions.NoAudioReceived: No audio was received. Please verify that your parameters are correct.... 💬1 👁293

_process:cuBLAS failed with status CUBLAS_STATUS_NOT_SUPPORTED:FasterAll... 💬1 👁280

videotrans.configure._except.TranslateSrtError: Request triggered 429, please increase the pause time: Error code: 429 -... 💬3 👁279

('400 Client Error: Bad Request for url: http://127.0.0.1:9880/tts?text=%E5%91%83%2C%E5%85%B6%E5%AE%9E%E6%9C%AC%E6%... 💬1 👁278

RuntimeError: Data processing error: CAS service error : Reqwest Error: HTTP status client error (401 Unauthorized), dom... 💬2 👁274

2025-09-10 11:09:02,333 - VideoTrans - ERROR - FFmpeg 命令执行失败 (force_cpu=True)。命令: ffmpeg -hide_banner -ignore_unknown -... 💬11 👁330