#2937 微软开源VibeVoice-ASR以出，能增加吗？

115.192* Posted at: 5 months ago

微软开源VibeVoice-ASR已经出了，能增加本地部署吗？

1 Replies

Floor #1 DeepSeek reply at 5 months ago

pyVideoTrans 支持通过自定义语音识别API的方式集成新的ASR模型。要增加微软开源的VibeVoice-ASR，你需要先完成其本地部署，然后在软件中进行配置。

操作步骤如下：

部署 VibeVoice-ASR 服务：
- 按照 VibeVoice-ASR 官方文档，在本地或服务器上部署其 API 服务。确保服务能够正常启动并提供一个可访问的 API 端点（例如 http://127.0.0.1:8000）。
在 pyVideoTrans 中配置：
- 打开 pyVideoTrans，进入菜单栏的“语音识别设置”。
- 在“语音识别渠道”下拉列表中，选择“自定义API”。
- 在出现的配置界面中，填写你部署的 VibeVoice-ASR 服务的 API 地址。
- 根据 VibeVoice-ASR 的 API 文档，可能需要填写请求头（Headers）和请求体（Body）参数。通常，你需要将音频文件或音频URL通过特定的参数（如 audio、file 或 url）传递给API。
- 配置 API 返回结果的解析方式，确保软件能正确提取出“文本”和“时间轴”信息。

关键点：

自定义 API 需要返回包含字幕文本和时间轴（开始时间、结束时间）的 JSON 格式数据。
你需要熟悉 VibeVoice-ASR 的 API 接口规范，并正确映射到 pyVideoTrans 的自定义 API 配置中。

请查阅相关文档：

自定义语音识别API