根据官方文档和更新记录,pyVideoTrans 从 v3.90 到 v3.92 的主要更新内容如下:
v3.91 版本更新:
新增功能:
- 新增 实时语音转文字 功能,可以实时监听麦克风并转录为文字。
- 新增 视频加水印 功能。
- 新增 阿里百炼 Qwen3-ASR 语音识别渠道。
- 新增 阿里百炼 Qwen3-TTS 语音合成渠道。
- 新增 硅基流动 翻译渠道。
- 新增 OpenRouter.ai 翻译渠道。
- 新增 Gemini-TTS 语音合成渠道。
- 新增 ChatterBox-TTS 语音合成渠道。
- 新增 Kokoro-TTS 语音合成渠道。
- 新增 自定义 TTS-API 接口。
- 新增 自定义语音识别 API 接口。
- 新增 STT 语音识别 API 接口。
- 新增 Gladia 语音识别渠道。
- 新增 字节语音合成模型 2.0 渠道。
- 新增 字节语音识别大模型极速版 渠道。
- 新增 302.AI 翻译和配音渠道。
- 新增 Deepgram.com 语音识别 API。
- 新增 Parakeet-tdt 语音识别渠道。
- 新增 Elevenlabs.io 语音识别 API。
- 新增 Huggingface_ASR 渠道。
- 新增 faster-whisper-xxl.exe 语音识别渠道。
功能优化与修复:
- 优化了 GPT-SoVITS 的接入方式。
- 优化了 CosyVoice 的接入方式。
- 优化了 ChatTTS 的接入方式。
- 优化了 FishTTS 的接入方式。
- 优化了 F5/Spark/Index/voxpcm/Dia-TTS 的接入方式。
- 修复了 Edge-TTS 配音出错的问题。
- 修复了 faster-whisper 下载模型失败的问题。
- 修复了 源码部署时 FunASR 和 pyside 冲突 的问题。
- 修复了 使用参考音频后合成声音乱糟糟 的问题。
- 优化了 本地大模型接入 的兼容性。
- 增加了对 Gemini 提示安全限制 的处理。
- 优化了 网络连接错误 的提示和处理。
v3.92 版本更新:
- 主要修复: 解决了 faster-whisper 在 Windows 系统上因路径包含中文或空格导致的模型加载失败问题。
- 其他优化: 包含了一些底层的稳定性和兼容性改进。
总结: 从 v3.90 到 v3.92 的更新主要集中在 大幅扩充支持的识别、翻译、配音渠道,尤其是接入了多个新的 AI 大模型服务;新增了实时转录、视频水印等实用工具;并修复了大量已知问题,提升了软件的稳定性和兼容性。