#4736 翻译现在可以用原语音的音色多角色自动翻译语音了么

36.37* Posted at: 3 hours ago

翻译现在可以用原语音的音色以及语气多角色自动翻译语音了么

7 Replies

可以实现原音色多角色自动翻译,但暂不支持克隆语气。
当前在 翻译视频或音频 功能中,选择支持声音克隆的配音渠道(如 OmniVoice、F5-TTS、CosineVoice 等),并选中 clone 角色,软件会自动将视频中每个说话人的语音片段作为参考音频进行配音,从而保留原始音色。语气(情感、情绪) 暂时无法通过现有模型精确克隆,目前主要针对音色和语调等声学特征进行复刻。

具体操作指南

  1. 在主界面选择“翻译视频或音频”,设置好源语言/目标语言。
  2. 配音渠道 中选择支持克隆的渠道(如 OmniVoice / F5-TTS / CosyVoice / GPT-SoVITS)。
  3. 配音角色 中选择 clone(克隆)。
  4. 进入 菜单→工具→高级选项→语音识别参数,将 最短语音持续毫秒 设为 3000最长语音持续秒数 设为 10,并勾选 Whisper预分割音频?合并过短字幕到邻近,以提高克隆成功率。
  5. 可直接开始翻译,无需单独分配角色——软件会自动使用视频原说话人对应的语音片段合成配音。

请查阅相关文档:

VoxCPM2 不是可以了么

当前的版本中,VoxCPM(包括VoxCPM2)在软件里作为配音渠道使用时,同样只支持原音色克隆,尚不支持原生语气(情绪、口吻)自动复制。

VoxCPM2 确实在声音相似度方面有不错表现,但它在软件中的集成依然是基于参考音频进行音色匹配,无法区分或还原说话人在不同句子中的语气变化。要达到语气跟随原文的效果,需要配音模型本身具备情感标签控制或者参考音频包含语气信息——目前软件内置的配音渠道(包括VoxCPM2)尚不具备该功能。

如果你需要尽量保留语气,可以尝试以下变通方案:

  1. 单视频交互模式(只选一个视频)下,进入配音编辑框,手动为需要调整语气的句子更换配音角色重新合成,播放不同语调的配音选项。
  2. 使用 AI 翻译 + 发送完整字幕,让大模型在翻译时根据上下文生成更符合原语气的译文,间接帮助配音自然些。

如果 VoxCPM2 官方已经明确支持语气参数且你想在软件中实现,可以把相关文档或日志发给我,我帮你确认是否需要更新或能否通过自定义 API 的方式接入。

官方已经可以了

请提供 VoxCPM2 官方支持语气参数的文档链接或版本说明,以便核实并告知如何在 pyVideoTrans 中配置使用。

VoxCPM2:无需分词器的TTS,用于多语言语音生成、创意语音设计和逼真克隆
英语|中文

项目页面 现场游乐场 文档 拥抱脸 模型范围

VoxCPM 标志

OpenBMB%2FVoxCPM | Trendshift

👋 加入我们的社区,参与讨论并获得支持! 飞书 | Discord

VoxCPM 是一个无需分词器的文本到语音系统,它通过端到端扩散自回归架构直接生成连续语音表示,绕过离散分词,从而实现高度自然和富有表现力的合成。

VoxCPM2是最新的主要版本——一个基于超过 200 万小时多语言语音数据训练的20 亿参数模型,现在支持30 种语言、语音设计、可控语音克隆和48kHz录音室品质音频输出。它基于MiniCPM-4内核构建。

✨精彩瞬间
🌍 30 种语言多语言合成— 输入 30 种支持语言中的任意一种的文本,即可直接合成,无需语言标签
🎨语音设计— 仅凭自然语言描述(性别、年龄、语调、情感、语速……)即可创建全新语音,无需参考音频
🎛️可控克隆— 从一段简短的参考音频片段克隆任何声音,并可选择添加风格引导,以控制情感、语速和表现力,同时保留原始音色。
🎙️终极克隆——重现每一个声音细微差别:提供参考音频及其文本,模型即可从参考音频无缝衔接,忠实地保留每一个声音细节——音色、节奏、情感和风格(与 VoxCPM1.5 相同)
🔊 48kHz 高品质音频— 可接受 16kHz 参考音频,并通过 AudioVAE V2 的非对称编码/解码设计直接输出 48kHz 录音室品质音频,并内置超分辨率功能 — 无需外部升频器
🧠上下文感知合成— 从文本内容中自动推断合适的韵律和表现力
⚡实时流传输— 在 NVIDIA RTX 4090 上 RTF 低至约 0.3 帧,通过Nano-vLLM或vLLM-Omni加速后约为 0.13 帧— 官方 vLLM 全模态服务,支持 VoxCPM2,具备 PagedAttention 功能,并提供与 OpenAI 兼容的 API
📜完全开源且可用于商业用途— 权重和代码均以Apache-2.0许可证发布,可免费用于商业用途
🌍 支持的语言 (30)

阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰语、土耳其语、越南语
汉语方言:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话

消息
[2026.04] 🔥 我们发布了VoxCPM2 — 2B 版本,支持 30 种语言,具备语音设计和可控语音克隆功能,以及 48kHz 音频输出!权重|文档| Playground
[2025.12] 🎉 开源VoxCPM1.5 权重,支持 SFT 和 LoRA 微调。(🏆 GitHub 热搜榜第一名)
[2025.09] 🔥 发布 VoxCPM技术报告。
[2025.09] 🎉 开源VoxCPM-0.5B 权重( 🏆 #1 HuggingFace Trending )
内容
快速入门
安装
Python API
CLI 用法
网络演示
生产部署
型号和版本
表现
微调
文档
生态系统与群落
风险与局限性
引用
🚀 快速入门
安装
pip install voxcpm
系统要求: Python ≥ 3.10 (

根据你提供的官方信息,VoxCPM2 确实支持通过风格引导(style guidance)和语音设计来控制情感、语调等语气参数。但当前 pyVideoTrans 集成的 VoxCPM 配音渠道(渠道号 10)仅实现了基础的参考音频克隆功能,未开放这些可控制语气的高级参数。软件界面中也没有对应的“风格引导”或“情感”输入项。若想直接使用语气控制,有两种可行方案:

  1. 通过自定义 TTS API 接入:软件支持自定义 TTS API(渠道号 32),你可以自行部署 VoxCPM2 的 OpenAI 兼容接口,并将包含语气参数的请求结构适配到自定义 API 中。在“菜单→设置→自定义TTS API”中填写接口地址和参数格式,即可在翻译时调用完整的语气控制能力。
  2. 等待软件更新:开发者会依据社区热度逐步增加对配音渠道高级参数的支持。你可在 GitHub 提交 feature request 或关注后续版本更新说明。

如需具体配置步骤,请提供你部署的 VoxCPM2 API 地址和参数示例,我可以辅助适配。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource