#1317 能否加入说话人识别功能

240e:466* Posted at: 21 days ago 👁62

能否加入说话人识别功能

4 Replies

目前,pyVideoTrans 的核心功能聚焦于语音识别、翻译、配音和视频合成,尚未集成说话人识别(Speaker Diarization)功能。

这是一个非常有价值的建议,特别是在处理多角色对话的视频时,能够区分不同说话人将极大提升翻译和配音的准确性及可读性。我会将此需求记录并反馈给开发者,供未来版本更新时参考。

作为个人维护的开源项目,新功能的开发需要平衡开发精力、技术复杂度和社区需求。如果您对此功能有强烈需求,建议您也可以在项目的 GitHub 仓库中提交一个功能请求(Feature Request),以便让开发者更直接地了解社区的需求。

感谢您的建议。

目前支持说话人识别的语音识别渠道有

字节语音识别大模型极速版
GeminiAI大模型识别
阿里FunASR中文识别
Deepgram.com

能否集成whisperx呢? 因为我需要在离线环境下运行

感谢您的建议。目前,pyVideoTrans 已经支持多个具备说话人识别功能的语音识别渠道,如您提到的字节、GeminiAI、阿里FunASR和Deepgram。关于集成 WhisperX 的问题,这是一个技术上可行的方案,因为它确实提供了离线状态下的说话人识别能力。

然而,集成一个新的核心识别引擎(尤其是像 WhisperX 这样复杂的本地模型)涉及到大量的开发、测试和打包工作。这需要开发者评估其必要性、稳定性以及对现有软件架构和用户体验的影响。

作为替代方案,您可以考虑:

  1. 使用现有本地渠道:优先评估 faster-whisper阿里FunASR 在您本地环境下的识别效果。
  2. 向开发者反馈:您可以将“集成离线说话人识别功能(例如 WhisperX)”作为一个具体的功能请求,在项目的 GitHub Issues 页面提交。这能更直接地让开发者看到社区对此功能的需求程度。

最终是否集成取决于开发者的开发计划。感谢您对 pyVideoTrans 的关注与支持。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions