#2295 克隆视频里的声音

240e:36a* Posted at: 2 months ago 👁183

克隆视频里的声音

Floor #1 DeepSeek AI reply at 2 months ago

要克隆视频里的声音，您需要使用 GPT-SoVITS 或 F5-TTS 等语音克隆功能。以下是操作步骤：

准备参考音频：
- 在软件主界面，点击菜单栏的 工具 -> 工具箱。
- 选择 音视频合并/分离 功能，从您的视频中提取出纯净的人声音频文件（如 vocal.wav）。
启动语音克隆服务：
- 如果您使用 GPT-SoVITS，请先按照官方教程部署好本地服务，并确保其 API 接口（通常是 http://127.0.0.1:9880）已启动。
- 如果您使用 F5-TTS，同样需要先部署好本地服务。
在软件中配置：
- 返回主界面，在 第4行：配音 (TTS) 区域，选择 GPT-SoVITS 或 F5-TTS 作为配音渠道。
- 点击右侧的设置按钮，填写您本地服务的 API 地址和端口。
- 在角色下拉菜单中，选择 Clone 或类似选项。
上传参考音频并克隆：
- 选择 Clone 角色后，通常会弹出一个窗口，要求您上传参考音频（即第1步提取的 vocal.wav）。
- 上传后，系统会进行音色提取和模型训练（首次克隆需要一些时间）。
- 克隆成功后，该角色会出现在可选列表中，之后您就可以使用这个克隆出的声音为其他视频配音了。

重要提示：

参考音频应尽量清晰、纯净，只包含单一说话人的声音，背景噪音要小。
首次克隆需要一定时间生成模型，请耐心等待。
确保您的本地克隆服务已正确安装并运行。

相关文档链接：原音色克隆/多角色配音

Floor #2 240e:36a* reply at 2 months ago

我的一个小孩训狗的视频，我要用小孩的声音并翻译成英文配音，且还要保留狗叫声

Floor #3 DeepSeek AI reply at 2 months ago

要实现“用小孩原声克隆并翻译成英文配音，同时保留狗叫声”，您需要结合人声分离和语音克隆功能。请按以下步骤操作：

分离人声与背景音（狗叫声）：
- 在主界面，点击菜单栏的 工具 -> 工具箱。
- 选择 人声背景音分离 功能。
- 导入您的视频，使用工具分离出 纯人声（vocal.wav） 和 背景音（instrument.wav，包含狗叫）。记下这两个文件的保存位置。
克隆小孩音色：
- 确保您的 GPT-SoVITS 或 F5-TTS 本地服务已启动。
- 返回主界面，在 第4行：配音 (TTS) 选择 GPT-SoVITS 或 F5-TTS。
- 点击设置，填写本地API地址（如 http://127.0.0.1:9880）。
- 在角色下拉菜单中选择 Clone，然后上传第1步得到的 纯人声文件（vocal.wav） 进行音色克隆。克隆成功后，会生成一个以小孩声音命名的角色。
视频翻译与配音（关键设置）：
- 回到主界面，导入您的原始视频。
- 第2行：语音识别：选择识别模型（如 faster-whisper），发音语言 选中文或 auto。
- 第3行：翻译：目标语言 选 英语，选择翻译渠道。
- 第4行：配音：选择您在第2步克隆好的 小孩声音角色。
- 第5行：同步与字幕：务必勾选 人声背景音分离。这个选项会让软件在配音时，自动将新生成的英文配音与第1步分离出的 背景音（含狗叫） 合并，从而保留狗叫声。
- 第6行：勾选 CUDA加速（如果可用），然后点击开始。

流程总结：软件会先识别小孩原话 -> 翻译成英文 -> 用克隆的小孩声音合成英文配音 -> 将此新配音与您事先分离好的背景音（狗叫）混合 -> 最终生成带狗叫声的英文配音视频。

注意事项：

如果视频中狗叫声与人声重叠严重，分离可能不完美，会有部分残留。
首次克隆音色需要一些时间生成模型。

相关文档链接：
原音色克隆/多角色配音
 人声背景音分离

Floor #4 240e:36a* reply at 2 months ago

怎么确保我的GPT-SoVITS 或 F5-TTS 本地服务已启动？

Floor #5 DeepSeek AI reply at 2 months ago

要确保您的 GPT-SoVITS 或 F5-TTS 本地服务已启动并正常运行，请按以下步骤检查和操作：检查服务是否正在运行：打开命令行（CMD 或终端）。对于 GPT-SoVITS：通常运行后，在浏览器访问 http://127.0.0.1:9880 应能看到其 Web 界面。您可以在浏览器中输入此地址测试。对于 F5-TTS：其 API 地址通常是 http://127.0.0.1:5000 或类似端口。同样在浏览器中访问该地址，如果服务运行，通常会返回一个简单的页面或提示。您也可以在命令行输入 netstat -ano | findstr :9880（Windows）或 lsof -i:9880（Mac/Linux）查看对应端口是否被监听。启动服务（如果未运行）：GPT-SoVITS：进入您解压或克隆的 GPT-SoVITS 项目目录。根据其官方说明，通常运行 python api.py 或类似命令来启动 API 服务。等待命令行出现 “Running on http://127.0.0.1:9880” 或类似的成功提示。F5-TTS：进入 F5-TTS 项目目录。运行其启动命令，例如 python app.py 或根据其 README 的说明。同样等待成功启动的提示。在 pyVideoTrans 中配置和测试：在 pyVideoTrans 主界面，第4行配音渠道选择 GPT-SoVITS 或 F5-TTS。点击右侧的设置按钮。在设置窗口中，正确填写 API 地址（例如 GPT-SoVITS 为 http://127.0.0.1:9880，F5-TTS 为 http://127.0.0.1:5000）。点击测试按钮。如果服务正常且配置正确，软件会提示“连接成功”或类似信息。如果测试失败：检查第1步的服务是否真的在运行（端口监听）。检查防火墙是否阻止了本地端口连接。确认 API 地址和端口号没有填错。查看 GPT-SoVITS/F5-TTS 的命令行窗口是否有报错信息。注意事项：确保您启动服务时使用的 Python 环境已安装所有必要依赖。首次使用 GPT-SoVITS 克隆可能需要下载底模，请保持网络通畅。相关文档链接：GPT-SoVITS F5/Spark/index/voxpcm/Dia-TTS

Floor #6 240e:36a* reply at 2 months ago

怎么样知道语音识别“阿里FunASR(本地）“是可以正常使用的？

Floor #7 DeepSeek AI reply at 2 months ago

要测试“阿里FunASR(本地)”语音识别功能是否正常，请按以下步骤操作：基本环境检查：确保您已安装 Python 环境（如果您是源码运行）或已下载预打包版。预打包版已内置所需组件。确保您的系统已安装 ffmpeg 并已添加到环境变量（预打包版通常已集成）。在软件中直接测试：启动 pyVideoTrans。在主界面第2行“语音识别”下拉菜单中，选择阿里FunASR(本地)。点击右侧的设置按钮。在设置窗口中，您会看到模型选择（如 paraformer-zh）。确保模型文件已下载。如果未下载，点击旁边的“下载模型”按钮。下载需要一定时间，请耐心等待并保持网络通畅。进行实际识别测试：返回主界面。在“输入”区域，导入一个简短的中文语音或视频文件（建议时长在30秒以内，内容清晰）。确保“发音语言”设置为中文或 auto。暂时不要勾选“翻译”和“配音”，只测试识别。点击右下角的开始按钮。观察运行过程：如果功能正常，您会看到任务开始执行，并在日志区显示进度信息。识别完成后，软件会自动弹出“字幕编辑”窗口，里面应显示识别出的中文文字。检查识别结果：在字幕编辑窗口中，检查文字是否准确、断句是否合理。如果识别出的文字是乱码、空白或全是英文，则可能不正常。常见问题与排查：如果点击“开始”后无反应或立即报错：检查是否选择了正确的模型，并且模型文件已完整下载（模型文件通常较大，约几百MB）。预打包版用户请确认软件解压路径不含中文或特殊字符，且不在系统保护目录（如 Program Files）。如果识别结果为空或完全错误：确认测试的音频/视频中确实包含清晰的中文人声。尝试在“高级选项”中调整 VAD 参数（如降低“语音阈值”），使其更灵敏。如果模型下载失败：可能是网络问题。可尝试手动下载模型，具体方法请参考官方文档。最简单的验证方法：使用软件内置的“工具箱”进行快速测试。点击菜单栏工具 -> 工具箱 -> 批量语音转字幕。选择“阿里FunASR(本地)”作为识别渠道，导入一个短音频，看能否正常输出字幕文件。如果以上步骤能成功识别并输出正确的中文字幕，则说明“阿里FunASR(本地)”功能正常。相关文档链接：阿里FunASR中文识别

Floor #8 240e:36a* reply at 2 months ago

对中文语音识别好的免费的不要梯子的模型选哪个？

Floor #9 DeepSeek AI reply at 2 months ago

对于中文语音识别，免费、无需梯子、且效果好的本地模型，首选是“阿里FunASR(本地)”。

理由如下：

专为中文优化：由阿里巴巴达摩院开发，针对中文语音场景进行了深度优化，在中文识别准确率上通常优于同等规模的通用模型（如 Whisper）。
完全免费本地运行：模型文件下载后，所有识别过程均在您本地电脑完成，无需连接任何外部API，无使用次数限制，也无需梯子。
内置在软件中：pyVideoTrans 已集成，无需额外复杂配置。

如何使用：

在 pyVideoTrans 主界面，第2行：语音识别，下拉选择 阿里FunASR(本地)。
点击右侧的 设置 按钮。
在设置窗口中，确保模型已下载（如 paraformer-zh）。如果未下载，点击“下载模型”按钮。
返回主界面，确保“发音语言”设置为 中文 或 auto。
导入您的音视频文件，开始识别。

其他免费备选方案（如果FunASR不适用）：

faster-whisper(本地)：同样免费本地运行。对于中文识别，建议选择 large-v3 模型，效果不错，但体积较大。medium 是速度和精度的平衡点。同样无需梯子。
VITS-cnen(本地)：这是一个内置的本地TTS（语音合成）模型，不是语音识别模型，请不要选错。

重要提示：

首次使用 阿里FunASR(本地) 需要下载模型文件（几百MB），请确保网络通畅。
如果您的视频背景噪音很大，可以在“高级选项”中开启 降噪 功能，或调整VAD参数以提高识别率。

结论：对于您“中文、免费、无需梯子”的需求，直接选择 阿里FunASR(本地) 即可。

相关文档链接：
阿里FunASR中文识别
 faster-whisper本地

Floor #10 240e:36a* reply at 2 months ago

避免软件包体积过大，FunASR 的模型并未集成在软件包内，第一次使用时会自动从 modelscope.cn 下载，下载后保存到软件目录下的models文件夹的hub内。
我的V.3.91版本里怎么在..\models\models\iic里，正常吗？

Floor #11 DeepSeek AI reply at 2 months ago

这是完全正常的，不是错误。

您观察到的路径 ..\models\models\iic 是 FunASR 模型的标准存放位置，符合其设计规范。原因如下：

FunASR 的默认缓存路径：FunASR 库（由阿里巴巴开发）默认会将模型下载并缓存到其特定的目录结构中。这个结构通常是 你的用户主目录/.cache/modelscope/hub 或项目内的 models 文件夹。
pyVideoTrans 的配置：pyVideoTrans 为了便于用户管理和避免与系统其他项目冲突，主动修改了 FunASR 的模型下载路径，将其指向软件自身的目录下，即您看到的 软件根目录\models\。
“iic”目录的含义：iic 是 Intelligent Computing Research Center（智能计算研究中心）的缩写，这是阿里巴巴达摩院下属的机构，FunASR 正是由该机构发布。所以模型存放在以机构名命名的子文件夹内是标准做法。
路径结构解析：..\models\models\iic 这个路径看起来有点重复，是因为：
- 第一个 models 是 pyVideoTrans 自己创建的用于集中存放所有本地模型的文件夹。
- 第二个 models 是 FunASR 库内部约定的缓存目录名。
- iic 是机构名。
- 再往里就是具体的模型名（如 damo）和版本号了。

结论与操作建议：

无需任何操作：您的模型存放位置是正确的，软件可以正常识别和使用这个路径下的模型。
不要移动或删除：请勿手动更改这个文件夹内的内容，否则会导致 FunASR 识别功能失效，需要重新下载。
验证是否正常：您可以通过导入一个简短的中文音频，选择“阿里FunASR(本地)”进行识别测试。如果能成功输出字幕，就证明一切正常。

简单来说，您看到的路径正是软件为了便携性和管理方便而特意设置的“非标准”位置，但这完全在预期之内，功能不受任何影响。

相关文档链接：
阿里FunASR中文识别

Floor #12 240e:36a* reply at 2 months ago

阿里FunASR(本地）->paraformer-zh.识别一个2M大小的中文视频，出来的字幕编辑时，把小孩子说话的文字，狗的声音也类化文字，都揉在字幕中了

Floor #13 DeepSeek AI reply at 2 months ago

您遇到的问题是语音识别中的常见现象：模型将非人声（如狗叫）也误识别为文字并混入了字幕。这是因为语音识别模型本质上是一个“声音转文字”的模型，当它遇到有规律的、类似语音的声响时，可能会产生“幻觉”，输出它认为最可能的文字。

要解决这个问题，请按以下步骤操作，核心思路是 “优化输入音频，帮助模型更好地区分人声与非人声”：

第一步：预处理音频（最关键）

在识别之前，对音频进行降噪处理，减少狗叫声等背景音的干扰。

在软件主界面，点击 菜单栏 -> 工具 -> 选项 -> 高级选项。
在“通用设置”区域，找到并勾选 降噪 选项。
关闭高级选项窗口。

第二步：调整识别参数（VAD）

通过调整语音活动检测（VAD）参数，让模型更精确地只切分出人声片段。

再次打开 高级选项。
找到 “Faster/OpenAI/Whisper 语音识别微调” 区域（FunASR 也使用这些VAD参数）。
调整以下两个关键参数：
- 语音阈值：调高此值（例如从默认的 0.45 调到 0.5 或 0.6）。这会让模型更“保守”，只把能量较高、更像人声的部分切出来，过滤掉像狗叫这样的声音。
- 静音分割持续毫秒：可以适当调小（例如从 140 调到 100）。这会让模型在检测到较短静音时就进行切分，防止将人声和后面的狗叫连成一个长片段。
关闭高级选项窗口。

第三步：进行识别并手动修正

使用上述设置后，重新对您的视频进行识别（务必勾选主界面第1行的“清理已生成”，否则会使用旧缓存）。
识别完成后，软件会弹出“字幕编辑”窗口。
此时，狗叫声被误识别的文字应该会大幅减少。您需要手动检查并删除那些明显是狗叫产生的无意义文字行（例如“汪”、“嗷”或奇怪的拼音组合）。
编辑完成后，再继续后续的翻译和配音流程。

备选方案（如果上述方法效果不佳）

如果狗叫声非常突出且持续，与小孩声音高度重叠，上述方法可能仍无法完全滤除。此时，更彻底的解决方案是：

使用“人声分离”功能：在识别之前，先使用工具箱的 “人声背景音分离” 功能，得到一个纯净的、只有小孩声音的音频（vocal.wav）。
识别纯净人声：用这个 vocal.wav 文件进行语音识别（可以使用“工具箱 -> 批量语音转字幕”功能，或将其作为主界面的输入文件）。这样从根本上杜绝了狗叫的干扰。
后续合成：在最终视频合成时，再将识别翻译后生成的新配音，与分离出的背景音（含狗叫）合并，从而保留狗叫声。

总结建议：对于您的情况，优先尝试 第一步（降噪）和第二步（调高VAD阈值），这能解决大部分问题。如果狗叫声异常顽固，再采用备选方案中的人声分离。

相关文档链接：
调节VAD更精确控制语音识别结果
 人声背景音分离

Floor #14 240e:36a* reply at 2 months ago

阿里FunASR(本地）->paraformer-zh.识别一个2M大小的中文视频，出来的字幕编辑时，把小孩子说话的文字，狗的声音也类化文字，都揉在字幕中了。并勾选降噪

Floor #15 DeepSeek AI reply at 2 months ago

您已经勾选了“降噪”，但问题依旧，这说明狗叫声与小孩人声在音频特征上可能比较接近，或者狗叫声能量较高，导致降噪和默认VAD参数无法有效过滤。请按以下步骤进行更精细的调整：第一步：大幅提高VAD“语音阈值”（核心操作）这是过滤非人声最有效的手段。打开菜单栏 -> 工具 -> 选项 -> 高级选项。找到 “Faster/OpenAI/Whisper 语音识别微调” 区域。将语音阈值从默认的 0.45 逐步调高，例如先尝试 0.7，如果识别出的片段太少，再微降至 0.6。原理：这个值代表判断为“有效语音”的能量门槛。调高后，只有能量更高、更像清晰人声的部分才会被切分出来，狗叫声等背景音更可能被忽略。第二步：启用“识别说话人”（辅助判断）在同一区域，勾选识别说话人。这会让模型尝试区分不同音源。虽然狗不是“说话人”，但此功能有时能帮助模型将音色差异大的部分（如尖锐的狗叫和小孩声音）归为不同类别，在输出结果上可能分开显示，便于您后期筛选删除。注意：这会增加处理时间，且需要额外下载模型（diarization模型）。第三步：进行“整体识别”而非“批量推理”在主界面第2行“语音识别”区域，确保识别模式选择为整体识别。原理：“整体识别”会先进行完整的VAD检测，切分效果通常优于简单按时间均分的“批量推理”，能更好地根据静音段来隔离非人声。第四步：执行识别并严格检查完成以上设置后，务必勾选主界面第1行的“清理已生成”，然后重新开始识别。识别完成后，在“字幕编辑”窗口中：仔细检查每一行字幕。狗叫声产生的误识别文字通常会是一些无意义的单字、拟声词或混乱拼音。直接删除这些错误行。如果启用了“识别说话人”，字幕可能会带有说话人标签（如SPEAKER_00），您可以结合音频和标签来判断并删除非人声部分。如果问题依然严重（终极方案）如果狗叫声与小孩声音在时间上完全重叠、难以用上述方法分离，则必须采用预处理方案：使用工具箱进行人声分离：点击菜单栏 -> 工具 -> 工具箱 -> 人声背景音分离。导入您的视频，分离出纯净人声（vocal.wav）。用此纯净人声文件进行语音识别（可通过主界面导入，或使用“工具箱->批量语音转字幕”）。这样能获得最干净的字幕。后续在合成最终视频时，记得在配音环节勾选“人声背景音分离”，以便将新配音与原始背景音（含狗叫）合并。总结：对于您“已降噪但仍有狗叫文字”的情况，请立即尝试第一步，将“语音阈值”调高到0.6或0.7，这通常是解决此类问题最直接有效的方法。相关文档链接：调节VAD更精确控制语音识别结果说话人识别人声背景音分离

Floor #16 240e:36a* reply at 2 months ago

一个2M大小的中文视频，视频内容是一个小孩子训狗，有小孩的声音和狗叫声，我想把小孩子的声音翻译成英语说，并保留狗叫声

Floor #17 DeepSeek AI reply at 2 months ago

要实现“小孩声音翻译成英语配音，同时保留狗叫声”，您需要结合人声分离和语音克隆功能。以下是详细步骤：

第一步：分离人声与狗叫声（关键预处理）

在主界面，点击菜单栏的 工具 -> 工具箱。
选择 人声背景音分离 功能。
导入您的视频，使用工具（如 UVR5）分离出：
- 纯人声 (vocal.wav，仅小孩声音)
- 背景音 (instrument.wav，包含狗叫声和所有环境音）
记下这两个文件的保存位置。

第二步：克隆小孩音色

确保您的 GPT-SoVITS 或 F5-TTS 本地服务已启动并运行。
返回主界面，在 第4行：配音 (TTS) 下拉菜单中，选择 GPT-SoVITS 或 F5-TTS。
点击右侧的设置按钮，填写您本地服务的 API 地址（例如 http://127.0.0.1:9880）。
在角色下拉菜单中，选择 Clone。
上传 第一步 得到的 纯人声文件 (vocal.wav) 进行音色克隆。克隆成功后，会生成一个以小孩声音命名的角色。

第三步：视频翻译与配音（核心流程）

导入文件：回到主界面，在“输入”区域，导入您的 原始视频（不是分离后的音频）。
语音识别（第2行）：
- 选择识别模型，推荐 阿里FunASR(本地)（中文识别准）。
- 发音语言 选 中文 或 auto。
- 重要：为了提高识别准确率，避免狗叫声干扰，建议在 高级选项 中：
  - 勾选降噪。
  - 适当调高 语音阈值（例如调到 0.6）。
翻译设置（第3行）：
- 目标语言 选择 英语。
- 选择翻译渠道（如 Google、DeepSeek 等）。
配音设置（第4行）：
- 选择您 第二步 克隆好的 小孩声音角色。
同步与字幕（第5行）：
- 务必勾选 人声背景音分离。这是保留狗叫声的关键！
- 勾选后，软件会自动将新生成的英文配音，与 第一步 分离出的 背景音 (instrument.wav，含狗叫) 合并，从而完美保留狗叫声。
- 选择字幕形式（如嵌入硬字幕）。
执行（第6行）：
- 勾选 CUDA加速（如果可用）。
- 点击开始。

流程总结

软件会按顺序执行：

用 阿里FunASR 识别小孩的原话（中文）。
将识别出的中文字幕 翻译成英文。
用 克隆的小孩声音 合成 英文配音。
将此新配音与您事先分离好的 背景音（含狗叫） 自动混合。
最终生成一个 小孩说英文、但背景狗叫声原样保留 的视频。

注意事项

分离效果：如果视频中狗叫声与小孩声音重叠严重，人声分离可能不完美，新配音中可能会残留微量狗叫，但影响通常很小。
识别优化：如果识别结果仍包含狗叫产生的乱码文字，请参考上一条回复，重点调整 VAD参数。
首次克隆：克隆音色需要一些时间生成模型，请耐心等待。