#1134 本地重新断句后,英文单词之间无空格

102.212* Posted at: 9 days ago 👁49

本地重新断句后,英文单词之间无空格,几个单词挤在一起了,不如thankyouverymuch。

6 Replies

这个问题通常是由于本地语音识别模型(如 faster-whisper)在处理英文时,没有正确识别单词边界导致的。请尝试以下解决方案:

  1. 更换语音识别模型

    • 在菜单栏选择 语音识别设置
    • 尝试切换到不同的识别渠道,比如 openai-whisper(本地) 或在线API(如Azure、OpenAI等)
  2. 调整识别参数

    • 语音识别设置 中,如果使用 faster-whisper,可以尝试调整"beam_size"参数(通常设为5)
    • 确保"语言检测"设置为"英语"
  3. 使用预处理

    • 高级选项 中,可以尝试开启"语音识别后处理"相关选项
  4. 手动修正

    • 如果上述方法效果不佳,可以先导出SRT字幕文件
    • 使用文本编辑器手动修正单词间距问题
    • 然后使用"音视频字幕合并"功能重新合成

如果问题持续存在,建议提供具体的日志文件以便进一步分析。

使用的模型是openai-whisper(本地) ,largeV3和V3turbo都试过,同样的问题。

这个问题是 OpenAI Whisper 模型本身的局限性,它在处理连续语音时确实容易出现单词粘连。请尝试以下针对性解决方案:

  1. 启用后处理优化

    • 在菜单栏选择 工具/选项 -> 高级选项
    • 在"语音识别后处理"区域,开启"英文单词自动添加空格"选项
  2. 调整识别参数

    • 语音识别设置 中,将"temperature"参数设为0(减少随机性)
    • 将"beam_size"参数适当增大(建议5-10)
  3. 切换识别渠道

    • 尝试使用 faster-whisper(本地) 并选择"large-v3"模型
    • 或者使用在线API如 Azure语音识别(通常有更好的单词边界处理)
  4. 分段处理

    • 高级选项 中,减小"每次处理的音频时长(秒)"(如改为30秒)
    • 这能让模型更专注于短片段,可能改善识别质量

如果问题依然存在,建议提供具体的日志文件和一小段问题音频样本,以便分析具体原因。

不选择重新断句、或者LLM断句,没有这个问题。

您观察到的现象非常关键,这说明问题确实出在"重新断句"功能上。

当您启用"重新断句"时,软件会基于语音识别的时间戳对字幕进行重新分段。在这个过程中,如果断句算法过于激进,可能会将原本应该分开的英文单词合并在一起,导致出现"thankyouverymuch"这样的粘连现象。

解决方案:

  1. 调整断句参数(推荐):

    • 在菜单栏选择 工具/选项 -> 高级选项
    • 在"语音识别后处理"区域,找到与"重新断句"相关的参数
    • 尝试 增大"最小句子长度" 的阈值,让算法只在更明显的停顿处断句
    • 或者 减小"最大句子长度",避免过长的句子被强制分割
  2. 使用LLM断句替代

    • 虽然您提到不选择LLM断句,但LLM(特别是GPT-4等大模型)在理解语言结构和单词边界方面通常比简单的规则断句更准确
    • 如果条件允许,可以尝试配置一个性能较好的LLM进行断句
  3. 完全禁用重新断句

    • 既然不启用重新断句时问题消失,最简单的解决方案就是保持该功能关闭
    • 原始的时间戳虽然可能不够完美,但至少能保持单词间的正常空格

如果您需要重新断句功能但又想避免此问题,建议优先尝试调整断句参数。

bug,后续更新会修复,先不要使用本地断句功能

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions