#3252 本地Qwen-asr支持说话人分离吗?

140.235* Posted at: 15 hours ago 👁17

在用Qwen-asr本地模型进行语音转字幕时,不管选哪个说话人分离模型,最后输出的内容都没有插入说话人标签。

2 Replies

这是因为 Qwen-ASR 本地模型本身不支持说话人分离功能。

  1. 核心原因:根据知识库,Qwen-ASR(Qwen3-ASR)是一个语音识别模型,其功能是将语音转换为文字。说话人分离(区分不同说话人)是一个独立的功能,需要依赖专门的说话人分离模型(如 Pyannote 3.1、CAM++ 或内置简单模型)来实现。在软件中,即使选择了说话人分离模型,如果语音识别渠道(如 Qwen-ASR)本身不具备或未集成说话人分离能力,最终输出就不会包含说话人标签。
  2. 解决方案

    • 方案A(使用支持分离的识别渠道):如果需要说话人分离,请改用支持此功能的语音识别渠道。例如:

      • WhisperX API:需独立部署 whisperx-api 服务,它集成了说话人分离。
      • 配置了说话人分离模型的 faster-whisper:在“语音识别参数”的高级选项中开启说话人分离,并正确配置模型(如使用 Pyannote 3.1 需 HuggingFace Token)。
    • 方案B(后续处理):先使用 Qwen-ASR 生成无说话人标签的字幕,然后通过其他工具或软件内的“说话人识别”功能进行二次处理(但这通常需要原始音频和已识别的文本,流程更复杂)。
  3. 操作确认:请检查您在“语音识别参数”->“说话人分离”中选择的模型是否已正确下载并配置(特别是 Pyannote 需要 Token)。但请注意,即使这里配置了,如果上方的“语音识别渠道”选择的是 Qwen-ASR,该渠道可能不会调用这些分离模型。

请查阅相关文档:

qwen-asr本身不支持,依赖于 选中识别说话人插入说话人,以及使用的 说话人分离模型,目前只有 pyannote支持所有语言的说话人分离,其他分离模型仅支持中文和英文分离

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource