#3020 文稿匹配可否遵循原文稿断句

45.59* Posted at: 16 days ago 👁44

image
我已经对文稿进行了断句,一条字幕一行,可否在文稿匹配的时候直接用我的断句方案呢,而不是重新断句呢?而且我发现断句结果都是词级时间戳,这不是我想要的。

3 Replies

这是由于软件默认的“文稿匹配”功能会基于语音识别结果和文稿内容进行动态对齐和重新断句,并生成词级时间戳。

要使用您预先断句好的文稿(一条字幕一行),请按以下步骤操作:

  1. 使用“字幕翻译”功能

    • 不要使用“视频翻译”或“文稿匹配”功能。
    • 在软件主界面,选择“字幕翻译”选项卡。
    • 将您已按行断句的文稿(.txt 或 .srt 格式)拖入“原始字幕文件”区域。
    • 将您的视频或音频文件拖入“视频或音频文件”区域。
    • 软件将直接使用您文稿中的每一行作为一句字幕,并尝试将其与音频时间轴进行匹配,而不会重新断句。
  2. 关于词级时间戳

    • 词级时间戳(Word-level timestamps)是某些语音识别模型(如 Whisper)的固有输出特性,用于更精细的时间对齐。
    • 在“字幕翻译”流程中,如果使用本地模型(如 faster-whisper)进行语音识别来获取时间轴,仍可能产生词级时间戳。若需更符合自然语气的句级断句,可以:

      • 在“高级选项” -> “语音识别参数”中,尝试调整“语音阈值(VAD)”等参数,或使用不同的 VAD 模型(如 ten-vad)。
      • 或者,考虑使用“对语音识别结果重新断句”功能(如果可用),或后续使用字幕编辑工具进行合并。

请查阅相关文档:

补充一下生成的对齐结果:image

您提供的截图显示,对齐结果将您的文稿分割成了非常细碎的片段(如“然后”、“我”、“们”),这正是“词级时间戳”导致的。要完全使用您的断句方案并避免词级分割,核心是绕过语音识别模型对文本的强制切分

请按以下步骤操作:

  1. 准备文件:确保您的文稿是 .srt 格式。如果现在是.txt,请先转换为.srt。您可以使用任何字幕编辑器,或按以下格式手动创建:

    1
    00:00:00,000 --> 00:00:02,000
    然后我们来看一下
    
    2
    00:00:02,000 --> 00:00:04,000
    这个功能的实际效果

    (时间戳可以先用占位符,软件会重新对齐)

  2. 使用“字幕合并”工具

    • 在软件主界面,进入“工具”菜单,选择“字幕合并”。
    • 将您的视频/音频文件拖入“视频或音频文件”区域。
    • 将您准备好的 .srt 字幕文件 拖入“字幕文件”区域。
    • 点击“开始合并”。软件会将您的字幕(保持您的原始断句)与音频波形进行强制对齐,生成新的、时间轴匹配的字幕文件,而不会对您的文本内容进行任何重新断句或词级分割。
  3. 后续处理:得到对齐后的.srt文件后,您可以:

    • 直接使用该字幕。
    • 如果需要翻译和配音,可以将该.srt文件作为“原始字幕文件”,在“字幕翻译”功能中继续后续的翻译和配音步骤。这样,您的原始断句将得以保留。

关键点:“字幕合并”工具是唯一能完全尊重您提供的.srt文件文本段落结构(即您的断句方案)并进行音画对齐的功能。它不依赖语音识别模型,因此彻底避免了词级时间戳问题。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource