#4736 翻译现在可以用原语音的音色多角色自动翻译语音了么

36.37* Posted at: 2 months ago

翻译现在可以用原语音的音色以及语气多角色自动翻译语音了么

Floor #1 DeepSeek reply at 2 months ago

可以实现原音色多角色自动翻译，但暂不支持克隆语气。
当前在 翻译视频或音频 功能中，选择支持声音克隆的配音渠道（如 OmniVoice、F5-TTS、CosineVoice 等），并选中 clone 角色，软件会自动将视频中每个说话人的语音片段作为参考音频进行配音，从而保留原始音色。语气（情感、情绪） 暂时无法通过现有模型精确克隆，目前主要针对音色和语调等声学特征进行复刻。

具体操作指南

在主界面选择“翻译视频或音频”，设置好源语言/目标语言。
在 配音渠道 中选择支持克隆的渠道（如 OmniVoice / F5-TTS / CosyVoice / GPT-SoVITS）。
在 配音角色 中选择 clone（克隆）。
进入 菜单→工具→高级选项→语音识别参数，将 最短语音持续毫秒 设为 3000，最长语音持续秒数 设为 10，并勾选 Whisper预分割音频? 和 合并过短字幕到邻近，以提高克隆成功率。
可直接开始翻译，无需单独分配角色——软件会自动使用视频原说话人对应的语音片段合成配音。

请查阅相关文档：

原声克隆与多角色配音

Floor #2 36.37* reply at 2 months ago

VoxCPM2 不是可以了么

Floor #3 DeepSeek reply at 2 months ago

当前的版本中，VoxCPM（包括VoxCPM2）在软件里作为配音渠道使用时，同样只支持原音色克隆，尚不支持原生语气（情绪、口吻）自动复制。

VoxCPM2 确实在声音相似度方面有不错表现，但它在软件中的集成依然是基于参考音频进行音色匹配，无法区分或还原说话人在不同句子中的语气变化。要达到语气跟随原文的效果，需要配音模型本身具备情感标签控制或者参考音频包含语气信息——目前软件内置的配音渠道（包括VoxCPM2）尚不具备该功能。

如果你需要尽量保留语气，可以尝试以下变通方案：

在 单视频交互模式（只选一个视频）下，进入配音编辑框，手动为需要调整语气的句子更换配音角色或重新合成，播放不同语调的配音选项。
使用 AI 翻译 + 发送完整字幕，让大模型在翻译时根据上下文生成更符合原语气的译文，间接帮助配音自然些。

如果 VoxCPM2 官方已经明确支持语气参数且你想在软件中实现，可以把相关文档或日志发给我，我帮你确认是否需要更新或能否通过自定义 API 的方式接入。

Floor #4 36.37* reply at 2 months ago

官方已经可以了

Floor #5 DeepSeek reply at 2 months ago

请提供 VoxCPM2 官方支持语气参数的文档链接或版本说明，以便核实并告知如何在 pyVideoTrans 中配置使用。

Floor #6 36.37* reply at 2 months ago

VoxCPM2：无需分词器的TTS，用于多语言语音生成、创意语音设计和逼真克隆
英语|中文

项目页面现场游乐场文档拥抱脸模型范围

VoxCPM 标志

OpenBMB%2FVoxCPM | Trendshift

👋 加入我们的社区，参与讨论并获得支持！飞书 | Discord

VoxCPM 是一个无需分词器的文本到语音系统，它通过端到端扩散自回归架构直接生成连续语音表示，绕过离散分词，从而实现高度自然和富有表现力的合成。

VoxCPM2是最新的主要版本——一个基于超过 200 万小时多语言语音数据训练的20 亿参数模型，现在支持30 种语言、语音设计、可控语音克隆和48kHz录音室品质音频输出。它基于MiniCPM-4内核构建。

✨精彩瞬间
🌍 30 种语言多语言合成— 输入 30 种支持语言中的任意一种的文本，即可直接合成，无需语言标签
🎨语音设计— 仅凭自然语言描述（性别、年龄、语调、情感、语速……）即可创建全新语音，无需参考音频
🎛️可控克隆— 从一段简短的参考音频片段克隆任何声音，并可选择添加风格引导，以控制情感、语速和表现力，同时保留原始音色。
🎙️终极克隆——重现每一个声音细微差别：提供参考音频及其文本，模型即可从参考音频无缝衔接，忠实地保留每一个声音细节——音色、节奏、情感和风格（与 VoxCPM1.5 相同）
🔊 48kHz 高品质音频— 可接受 16kHz 参考音频，并通过 AudioVAE V2 的非对称编码/解码设计直接输出 48kHz 录音室品质音频，并内置超分辨率功能 — 无需外部升频器
🧠上下文感知合成— 从文本内容中自动推断合适的韵律和表现力
⚡实时流传输— 在 NVIDIA RTX 4090 上 RTF 低至约 0.3 帧，通过Nano-vLLM或vLLM-Omni加速后约为 0.13 帧— 官方 vLLM 全模态服务，支持 VoxCPM2，具备 PagedAttention 功能，并提供与 OpenAI 兼容的 API
📜完全开源且可用于商业用途— 权重和代码均以Apache-2.0许可证发布，可免费用于商业用途
🌍 支持的语言 (30)

阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰语、土耳其语、越南语
汉语方言：四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话

消息
[2026.04] 🔥 我们发布了VoxCPM2 — 2B 版本，支持 30 种语言，具备语音设计和可控语音克隆功能，以及 48kHz 音频输出！权重|文档| Playground
[2025.12] 🎉 开源VoxCPM1.5 权重，支持 SFT 和 LoRA 微调。（🏆 GitHub 热搜榜第一名）
[2025.09] 🔥 发布 VoxCPM技术报告。
[2025.09] 🎉 开源VoxCPM-0.5B 权重( 🏆 #1 HuggingFace Trending )
内容
快速入门
安装
Python API
CLI 用法
网络演示
生产部署
型号和版本
表现
微调
文档
生态系统与群落
风险与局限性
引用
🚀 快速入门
安装
pip install voxcpm
系统要求： Python ≥ 3.10 (

Floor #7 DeepSeek reply at 2 months ago

根据你提供的官方信息，VoxCPM2 确实支持通过风格引导（style guidance）和语音设计来控制情感、语调等语气参数。但当前 pyVideoTrans 集成的 VoxCPM 配音渠道（渠道号 10）仅实现了基础的参考音频克隆功能，未开放这些可控制语气的高级参数。软件界面中也没有对应的“风格引导”或“情感”输入项。若想直接使用语气控制，有两种可行方案：

通过自定义 TTS API 接入：软件支持自定义 TTS API（渠道号 32），你可以自行部署 VoxCPM2 的 OpenAI 兼容接口，并将包含语气参数的请求结构适配到自定义 API 中。在“菜单→设置→自定义TTS API”中填写接口地址和参数格式，即可在翻译时调用完整的语气控制能力。
等待软件更新：开发者会依据社区热度逐步增加对配音渠道高级参数的支持。你可在 GitHub 提交 feature request 或关注后续版本更新说明。

如需具体配置步骤，请提供你部署的 VoxCPM2 API 地址和参数示例，我可以辅助适配。

请查阅相关文档：

VoxCPM 配音渠道（当前软件集成说明）
自定义 TTS API

#4736 翻译现在可以用原语音的音色多角色自动翻译语音了么

7 Replies

具体操作指南

请查阅相关文档：

请查阅相关文档：

Post Your Reply

Related resource