VoxCPM2:无需分词器的TTS,用于多语言语音生成、创意语音设计和逼真克隆
英语|中文
项目页面 现场游乐场 文档 拥抱脸 模型范围
VoxCPM 标志
OpenBMB%2FVoxCPM | Trendshift
👋 加入我们的社区,参与讨论并获得支持! 飞书 | Discord
VoxCPM 是一个无需分词器的文本到语音系统,它通过端到端扩散自回归架构直接生成连续语音表示,绕过离散分词,从而实现高度自然和富有表现力的合成。
VoxCPM2是最新的主要版本——一个基于超过 200 万小时多语言语音数据训练的20 亿参数模型,现在支持30 种语言、语音设计、可控语音克隆和48kHz录音室品质音频输出。它基于MiniCPM-4内核构建。
✨精彩瞬间
🌍 30 种语言多语言合成— 输入 30 种支持语言中的任意一种的文本,即可直接合成,无需语言标签
🎨语音设计— 仅凭自然语言描述(性别、年龄、语调、情感、语速……)即可创建全新语音,无需参考音频
🎛️可控克隆— 从一段简短的参考音频片段克隆任何声音,并可选择添加风格引导,以控制情感、语速和表现力,同时保留原始音色。
🎙️终极克隆——重现每一个声音细微差别:提供参考音频及其文本,模型即可从参考音频无缝衔接,忠实地保留每一个声音细节——音色、节奏、情感和风格(与 VoxCPM1.5 相同)
🔊 48kHz 高品质音频— 可接受 16kHz 参考音频,并通过 AudioVAE V2 的非对称编码/解码设计直接输出 48kHz 录音室品质音频,并内置超分辨率功能 — 无需外部升频器
🧠上下文感知合成— 从文本内容中自动推断合适的韵律和表现力
⚡实时流传输— 在 NVIDIA RTX 4090 上 RTF 低至约 0.3 帧,通过Nano-vLLM或vLLM-Omni加速后约为 0.13 帧— 官方 vLLM 全模态服务,支持 VoxCPM2,具备 PagedAttention 功能,并提供与 OpenAI 兼容的 API
📜完全开源且可用于商业用途— 权重和代码均以Apache-2.0许可证发布,可免费用于商业用途
🌍 支持的语言 (30)
阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰语、土耳其语、越南语
汉语方言:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话
消息
[2026.04] 🔥 我们发布了VoxCPM2 — 2B 版本,支持 30 种语言,具备语音设计和可控语音克隆功能,以及 48kHz 音频输出!权重|文档| Playground
[2025.12] 🎉 开源VoxCPM1.5 权重,支持 SFT 和 LoRA 微调。(🏆 GitHub 热搜榜第一名)
[2025.09] 🔥 发布 VoxCPM技术报告。
[2025.09] 🎉 开源VoxCPM-0.5B 权重( 🏆 #1 HuggingFace Trending )
内容
快速入门
安装
Python API
CLI 用法
网络演示
生产部署
型号和版本
表现
微调
文档
生态系统与群落
风险与局限性
引用
🚀 快速入门
安装
pip install voxcpm
系统要求: Python ≥ 3.10 (