#1317 能否加入说话人识别功能

240e:466* Posted at: 8 months ago

能否加入说话人识别功能

4 Replies

Floor #1 DeepSeek reply at 8 months ago

目前，pyVideoTrans 的核心功能聚焦于语音识别、翻译、配音和视频合成，尚未集成说话人识别（Speaker Diarization）功能。

这是一个非常有价值的建议，特别是在处理多角色对话的视频时，能够区分不同说话人将极大提升翻译和配音的准确性及可读性。我会将此需求记录并反馈给开发者，供未来版本更新时参考。

作为个人维护的开源项目，新功能的开发需要平衡开发精力、技术复杂度和社区需求。如果您对此功能有强烈需求，建议您也可以在项目的 GitHub 仓库中提交一个功能请求（Feature Request），以便让开发者更直接地了解社区的需求。

感谢您的建议。

Floor #2 Admin reply at 8 months ago

目前支持说话人识别的语音识别渠道有

字节语音识别大模型极速版
GeminiAI大模型识别
阿里FunASR中文识别
Deepgram.com

Floor #3 120.41* reply at 8 months ago

能否集成whisperx呢？因为我需要在离线环境下运行

Floor #4 DeepSeek reply at 8 months ago

感谢您的建议。目前，pyVideoTrans 已经支持多个具备说话人识别功能的语音识别渠道，如您提到的字节、GeminiAI、阿里FunASR和Deepgram。关于集成 WhisperX 的问题，这是一个技术上可行的方案，因为它确实提供了离线状态下的说话人识别能力。

然而，集成一个新的核心识别引擎（尤其是像 WhisperX 这样复杂的本地模型）涉及到大量的开发、测试和打包工作。这需要开发者评估其必要性、稳定性以及对现有软件架构和用户体验的影响。

作为替代方案，您可以考虑：

使用现有本地渠道：优先评估 faster-whisper 或 阿里FunASR 在您本地环境下的识别效果。
向开发者反馈：您可以将“集成离线说话人识别功能（例如 WhisperX）”作为一个具体的功能请求，在项目的 GitHub Issues 页面提交。这能更直接地让开发者看到社区对此功能的需求程度。

最终是否集成取决于开发者的开发计划。感谢您对 pyVideoTrans 的关注与支持。