#2295 克隆视频里的声音

240e:36a* Posted at: 4 hours ago 👁31

克隆视频里的声音

24 Replies

要克隆视频里的声音,您需要使用 GPT-SoVITSF5-TTS 等语音克隆功能。以下是操作步骤:

  1. 准备参考音频

    • 在软件主界面,点击菜单栏的 工具 -> 工具箱
    • 选择 音视频合并/分离 功能,从您的视频中提取出纯净的人声音频文件(如 vocal.wav)。
  2. 启动语音克隆服务

    • 如果您使用 GPT-SoVITS,请先按照官方教程部署好本地服务,并确保其 API 接口(通常是 http://127.0.0.1:9880)已启动。
    • 如果您使用 F5-TTS,同样需要先部署好本地服务。
  3. 在软件中配置

    • 返回主界面,在 第4行:配音 (TTS) 区域,选择 GPT-SoVITSF5-TTS 作为配音渠道。
    • 点击右侧的 设置 按钮,填写您本地服务的 API 地址和端口。
    • 角色 下拉菜单中,选择 Clone 或类似选项。
  4. 上传参考音频并克隆

    • 选择 Clone 角色后,通常会弹出一个窗口,要求您上传参考音频(即第1步提取的 vocal.wav)。
    • 上传后,系统会进行音色提取和模型训练(首次克隆需要一些时间)。
    • 克隆成功后,该角色会出现在可选列表中,之后您就可以使用这个克隆出的声音为其他视频配音了。

重要提示

  • 参考音频应尽量清晰、纯净,只包含单一说话人的声音,背景噪音要小。
  • 首次克隆需要一定时间生成模型,请耐心等待。
  • 确保您的本地克隆服务已正确安装并运行。

相关文档链接:原音色克隆/多角色配音

我的一个小孩训狗的视频,我要用小孩的声音并翻译成英文配音,且还要保留狗叫声

要实现“用小孩原声克隆并翻译成英文配音,同时保留狗叫声”,您需要结合人声分离语音克隆功能。请按以下步骤操作:

  1. 分离人声与背景音(狗叫声)

    • 在主界面,点击菜单栏的 工具 -> 工具箱
    • 选择 人声背景音分离 功能。
    • 导入您的视频,使用工具分离出 纯人声(vocal.wav)背景音(instrument.wav,包含狗叫)。记下这两个文件的保存位置。
  2. 克隆小孩音色

    • 确保您的 GPT-SoVITSF5-TTS 本地服务已启动。
    • 返回主界面,在 第4行:配音 (TTS) 选择 GPT-SoVITSF5-TTS
    • 点击 设置,填写本地API地址(如 http://127.0.0.1:9880)。
    • 角色 下拉菜单中选择 Clone,然后上传第1步得到的 纯人声文件(vocal.wav) 进行音色克隆。克隆成功后,会生成一个以小孩声音命名的角色。
  3. 视频翻译与配音(关键设置)

    • 回到主界面,导入您的原始视频。
    • 第2行:语音识别:选择识别模型(如 faster-whisper),发音语言 选中文或 auto
    • 第3行:翻译目标语言英语,选择翻译渠道。
    • 第4行:配音:选择您在第2步克隆好的 小孩声音角色
    • 第5行:同步与字幕务必勾选 人声背景音分离。这个选项会让软件在配音时,自动将新生成的英文配音与第1步分离出的 背景音(含狗叫) 合并,从而保留狗叫声。
    • 第6行:勾选 CUDA加速(如果可用),然后点击 开始

流程总结:软件会先识别小孩原话 -> 翻译成英文 -> 用克隆的小孩声音合成英文配音 -> 将此新配音与您事先分离好的背景音(狗叫)混合 -> 最终生成带狗叫声的英文配音视频。

注意事项

  • 如果视频中狗叫声与人声重叠严重,分离可能不完美,会有部分残留。
  • 首次克隆音色需要一些时间生成模型。

相关文档链接:
原音色克隆/多角色配音
人声背景音分离

怎么确保我的GPT-SoVITS 或 F5-TTS 本地服务已启动?

要确保您的 GPT-SoVITS 或 F5-TTS 本地服务已启动并正常运行,请按以下步骤检查和操作:检查服务是否正在运行:打开命令行(CMD 或终端)。对于 GPT-SoVITS:通常运行后,在浏览器访问 http://127.0.0.1:9880 应能看到其 Web 界面。您可以在浏览器中输入此地址测试。对于 F5-TTS:其 API 地址通常是 http://127.0.0.1:5000 或类似端口。同样在浏览器中访问该地址,如果服务运行,通常会返回一个简单的页面或提示。您也可以在命令行输入 netstat -ano | findstr :9880(Windows)或 lsof -i:9880(Mac/Linux)查看对应端口是否被监听。启动服务(如果未运行):GPT-SoVITS:进入您解压或克隆的 GPT-SoVITS 项目目录。根据其官方说明,通常运行 python api.py 或类似命令来启动 API 服务。等待命令行出现 “Running on http://127.0.0.1:9880” 或类似的成功提示。F5-TTS:进入 F5-TTS 项目目录。运行其启动命令,例如 python app.py 或根据其 README 的说明。同样等待成功启动的提示。在 pyVideoTrans 中配置和测试:在 pyVideoTrans 主界面,第4行配音渠道选择 GPT-SoVITS 或 F5-TTS。点击右侧的 设置 按钮。在设置窗口中,正确填写 API 地址(例如 GPT-SoVITS 为 http://127.0.0.1:9880,F5-TTS 为 http://127.0.0.1:5000)。点击 测试 按钮。如果服务正常且配置正确,软件会提示“连接成功”或类似信息。如果测试失败:检查第1步的服务是否真的在运行(端口监听)。检查防火墙是否阻止了本地端口连接。确认 API 地址和端口号没有填错。查看 GPT-SoVITS/F5-TTS 的命令行窗口是否有报错信息。注意事项:确保您启动服务时使用的 Python 环境已安装所有必要依赖。首次使用 GPT-SoVITS 克隆可能需要下载底模,请保持网络通畅。相关文档链接:GPT-SoVITSF5/Spark/index/voxpcm/Dia-TTS

怎么样知道语音识别“阿里FunASR(本地)“是可以正常使用的?

要测试“阿里FunASR(本地)”语音识别功能是否正常,请按以下步骤操作:基本环境检查:确保您已安装 Python 环境(如果您是源码运行)或已下载预打包版。预打包版已内置所需组件。确保您的系统已安装 ffmpeg 并已添加到环境变量(预打包版通常已集成)。在软件中直接测试:启动 pyVideoTrans。在主界面第2行“语音识别”下拉菜单中,选择 阿里FunASR(本地)。点击右侧的 设置 按钮。在设置窗口中,您会看到模型选择(如 paraformer-zh)。确保模型文件已下载。如果未下载,点击旁边的“下载模型”按钮。下载需要一定时间,请耐心等待并保持网络通畅。进行实际识别测试:返回主界面。在“输入”区域,导入一个 简短的中文语音或视频文件(建议时长在30秒以内,内容清晰)。确保“发音语言”设置为 中文 或 auto。暂时不要勾选“翻译”和“配音”,只测试识别。点击右下角的 开始 按钮。观察运行过程:如果功能正常,您会看到任务开始执行,并在日志区显示进度信息。识别完成后,软件会自动弹出“字幕编辑”窗口,里面应显示识别出的中文文字。检查识别结果:在字幕编辑窗口中,检查文字是否准确、断句是否合理。如果识别出的文字是乱码、空白或全是英文,则可能不正常。常见问题与排查:如果点击“开始”后无反应或立即报错:检查是否选择了正确的模型,并且模型文件已完整下载(模型文件通常较大,约几百MB)。预打包版用户请确认软件解压路径不含中文或特殊字符,且不在系统保护目录(如 Program Files)。如果识别结果为空或完全错误:确认测试的音频/视频中确实包含清晰的中文人声。尝试在“高级选项”中调整 VAD 参数(如降低“语音阈值”),使其更灵敏。如果模型下载失败:可能是网络问题。可尝试手动下载模型,具体方法请参考官方文档。最简单的验证方法:使用软件内置的“工具箱”进行快速测试。点击菜单栏 工具 -> 工具箱 -> 批量语音转字幕。选择“阿里FunASR(本地)”作为识别渠道,导入一个短音频,看能否正常输出字幕文件。如果以上步骤能成功识别并输出正确的中文字幕,则说明“阿里FunASR(本地)”功能正常。相关文档链接:阿里FunASR中文识别

对中文语音识别好的免费的不要梯子的模型选哪个?

对于中文语音识别,免费、无需梯子、且效果好的本地模型,首选是“阿里FunASR(本地)”

理由如下:

  1. 专为中文优化:由阿里巴巴达摩院开发,针对中文语音场景进行了深度优化,在中文识别准确率上通常优于同等规模的通用模型(如 Whisper)。
  2. 完全免费本地运行:模型文件下载后,所有识别过程均在您本地电脑完成,无需连接任何外部API,无使用次数限制,也无需梯子。
  3. 内置在软件中:pyVideoTrans 已集成,无需额外复杂配置。

如何使用:

  1. 在 pyVideoTrans 主界面,第2行:语音识别,下拉选择 阿里FunASR(本地)
  2. 点击右侧的 设置 按钮。
  3. 在设置窗口中,确保模型已下载(如 paraformer-zh)。如果未下载,点击“下载模型”按钮。
  4. 返回主界面,确保“发音语言”设置为 中文auto
  5. 导入您的音视频文件,开始识别。

其他免费备选方案(如果FunASR不适用):

  • faster-whisper(本地):同样免费本地运行。对于中文识别,建议选择 large-v3 模型,效果不错,但体积较大。medium 是速度和精度的平衡点。同样无需梯子
  • VITS-cnen(本地):这是一个内置的本地TTS(语音合成)模型,不是语音识别模型,请不要选错。

重要提示:

  • 首次使用 阿里FunASR(本地) 需要下载模型文件(几百MB),请确保网络通畅。
  • 如果您的视频背景噪音很大,可以在“高级选项”中开启 降噪 功能,或调整VAD参数以提高识别率。

结论:对于您“中文、免费、无需梯子”的需求,直接选择 阿里FunASR(本地) 即可。

相关文档链接:
阿里FunASR中文识别
faster-whisper本地

避免软件包体积过大,FunASR 的模型并未集成在软件包内,第一次使用时会自动从 modelscope.cn 下载,下载后保存到软件目录下的models文件夹的hub内。
我的V.3.91版本里怎么在..\models\models\iic里,正常吗?

这是完全正常的,不是错误。

您观察到的路径 ..\models\models\iic 是 FunASR 模型的标准存放位置,符合其设计规范。原因如下:

  1. FunASR 的默认缓存路径:FunASR 库(由阿里巴巴开发)默认会将模型下载并缓存到其特定的目录结构中。这个结构通常是 你的用户主目录/.cache/modelscope/hub 或项目内的 models 文件夹。
  2. pyVideoTrans 的配置:pyVideoTrans 为了便于用户管理和避免与系统其他项目冲突,主动修改了 FunASR 的模型下载路径,将其指向软件自身的目录下,即您看到的 软件根目录\models\
  3. “iic”目录的含义iicIntelligent Computing Research Center(智能计算研究中心)的缩写,这是阿里巴巴达摩院下属的机构,FunASR 正是由该机构发布。所以模型存放在以机构名命名的子文件夹内是标准做法。
  4. 路径结构解析..\models\models\iic 这个路径看起来有点重复,是因为:

    • 第一个 models 是 pyVideoTrans 自己创建的用于集中存放所有本地模型的文件夹。
    • 第二个 models 是 FunASR 库内部约定的缓存目录名。
    • iic 是机构名。
    • 再往里就是具体的模型名(如 damo)和版本号了。

结论与操作建议:

  • 无需任何操作:您的模型存放位置是正确的,软件可以正常识别和使用这个路径下的模型。
  • 不要移动或删除:请勿手动更改这个文件夹内的内容,否则会导致 FunASR 识别功能失效,需要重新下载。
  • 验证是否正常:您可以通过导入一个简短的中文音频,选择“阿里FunASR(本地)”进行识别测试。如果能成功输出字幕,就证明一切正常。

简单来说,您看到的路径正是软件为了便携性和管理方便而特意设置的“非标准”位置,但这完全在预期之内,功能不受任何影响。

相关文档链接:
阿里FunASR中文识别

阿里FunASR(本地)->paraformer-zh.识别一个2M大小的中文视频,出来的字幕编辑时,把小孩子说话的文字,狗的声音也类化文字,都揉在字幕中了

您遇到的问题是语音识别中的常见现象:模型将非人声(如狗叫)也误识别为文字并混入了字幕。这是因为语音识别模型本质上是一个“声音转文字”的模型,当它遇到有规律的、类似语音的声响时,可能会产生“幻觉”,输出它认为最可能的文字。

要解决这个问题,请按以下步骤操作,核心思路是 “优化输入音频,帮助模型更好地区分人声与非人声”

第一步:预处理音频(最关键)

在识别之前,对音频进行降噪处理,减少狗叫声等背景音的干扰。

  1. 在软件主界面,点击 菜单栏 -> 工具 -> 选项 -> 高级选项
  2. 在“通用设置”区域,找到并勾选 降噪 选项。
  3. 关闭高级选项窗口。

第二步:调整识别参数(VAD)

通过调整语音活动检测(VAD)参数,让模型更精确地只切分出人声片段。

  1. 再次打开 高级选项
  2. 找到 “Faster/OpenAI/Whisper 语音识别微调” 区域(FunASR 也使用这些VAD参数)。
  3. 调整以下两个关键参数:

    • 语音阈值调高此值(例如从默认的 0.45 调到 0.5 或 0.6)。这会让模型更“保守”,只把能量较高、更像人声的部分切出来,过滤掉像狗叫这样的声音。
    • 静音分割持续毫秒:可以适当调小(例如从 140 调到 100)。这会让模型在检测到较短静音时就进行切分,防止将人声和后面的狗叫连成一个长片段。
  4. 关闭高级选项窗口。

第三步:进行识别并手动修正

  1. 使用上述设置后,重新对您的视频进行识别(务必勾选主界面第1行的“清理已生成”,否则会使用旧缓存)。
  2. 识别完成后,软件会弹出“字幕编辑”窗口。
  3. 此时,狗叫声被误识别的文字应该会大幅减少。您需要手动检查并删除那些明显是狗叫产生的无意义文字行(例如“汪”、“嗷”或奇怪的拼音组合)。
  4. 编辑完成后,再继续后续的翻译和配音流程。

备选方案(如果上述方法效果不佳)

如果狗叫声非常突出且持续,与小孩声音高度重叠,上述方法可能仍无法完全滤除。此时,更彻底的解决方案是:

  1. 使用“人声分离”功能:在识别之前,先使用工具箱的 “人声背景音分离” 功能,得到一个纯净的、只有小孩声音的音频(vocal.wav)。
  2. 识别纯净人声:用这个 vocal.wav 文件进行语音识别(可以使用“工具箱 -> 批量语音转字幕”功能,或将其作为主界面的输入文件)。这样从根本上杜绝了狗叫的干扰。
  3. 后续合成:在最终视频合成时,再将识别翻译后生成的新配音,与分离出的背景音(含狗叫)合并,从而保留狗叫声。

总结建议:对于您的情况,优先尝试 第一步(降噪)和第二步(调高VAD阈值),这能解决大部分问题。如果狗叫声异常顽固,再采用备选方案中的人声分离。

相关文档链接:
调节VAD更精确控制语音识别结果
人声背景音分离

阿里FunASR(本地)->paraformer-zh.识别一个2M大小的中文视频,出来的字幕编辑时,把小孩子说话的文字,狗的声音也类化文字,都揉在字幕中了。并勾选 降噪

您已经勾选了“降噪”,但问题依旧,这说明狗叫声与小孩人声在音频特征上可能比较接近,或者狗叫声能量较高,导致降噪和默认VAD参数无法有效过滤。请按以下步骤进行更精细的调整:第一步:大幅提高VAD“语音阈值”(核心操作)这是过滤非人声最有效的手段。打开 菜单栏 -> 工具 -> 选项 -> 高级选项。找到 “Faster/OpenAI/Whisper 语音识别微调” 区域。将 语音阈值 从默认的 0.45 逐步调高,例如先尝试 0.7,如果识别出的片段太少,再微降至 0.6。原理:这个值代表判断为“有效语音”的能量门槛。调高后,只有能量更高、更像清晰人声的部分才会被切分出来,狗叫声等背景音更可能被忽略。第二步:启用“识别说话人”(辅助判断)在同一区域,勾选 识别说话人。这会让模型尝试区分不同音源。虽然狗不是“说话人”,但此功能有时能帮助模型将音色差异大的部分(如尖锐的狗叫和小孩声音)归为不同类别,在输出结果上可能分开显示,便于您后期筛选删除。注意:这会增加处理时间,且需要额外下载模型(diarization模型)。第三步:进行“整体识别”而非“批量推理”在主界面第2行“语音识别”区域,确保识别模式选择为 整体识别。原理:“整体识别”会先进行完整的VAD检测,切分效果通常优于简单按时间均分的“批量推理”,能更好地根据静音段来隔离非人声。第四步:执行识别并严格检查完成以上设置后,务必勾选主界面第1行的“清理已生成”,然后重新开始识别。识别完成后,在“字幕编辑”窗口中:仔细检查每一行字幕。狗叫声产生的误识别文字通常会是一些无意义的单字、拟声词或混乱拼音。直接删除这些错误行。如果启用了“识别说话人”,字幕可能会带有说话人标签(如SPEAKER_00),您可以结合音频和标签来判断并删除非人声部分。如果问题依然严重(终极方案)如果狗叫声与小孩声音在时间上完全重叠、难以用上述方法分离,则必须采用预处理方案:使用工具箱进行人声分离:点击 菜单栏 -> 工具 -> 工具箱 -> 人声背景音分离。导入您的视频,分离出纯净人声(vocal.wav)。用此纯净人声文件进行语音识别(可通过主界面导入,或使用“工具箱->批量语音转字幕”)。这样能获得最干净的字幕。后续在合成最终视频时,记得在配音环节勾选“人声背景音分离”,以便将新配音与原始背景音(含狗叫)合并。总结:对于您“已降噪但仍有狗叫文字”的情况,请立即尝试第一步,将“语音阈值”调高到0.6或0.7,这通常是解决此类问题最直接有效的方法。相关文档链接:调节VAD更精确控制语音识别结果说话人识别人声背景音分离

一个2M大小的中文视频,视频内容是一个小孩子训狗,有小孩的声音和狗叫声,我想把小孩子的声音翻译成英语说,并保留狗叫声

要实现“小孩声音翻译成英语配音,同时保留狗叫声”,您需要结合人声分离语音克隆功能。以下是详细步骤:

第一步:分离人声与狗叫声(关键预处理)

  1. 在主界面,点击菜单栏的 工具 -> 工具箱
  2. 选择 人声背景音分离 功能。
  3. 导入您的视频,使用工具(如 UVR5)分离出:

    • 纯人声 (vocal.wav,仅小孩声音)
    • 背景音 (instrument.wav,包含狗叫声和所有环境音)
  4. 记下这两个文件的保存位置。

第二步:克隆小孩音色

  1. 确保您的 GPT-SoVITSF5-TTS 本地服务已启动并运行。
  2. 返回主界面,在 第4行:配音 (TTS) 下拉菜单中,选择 GPT-SoVITSF5-TTS
  3. 点击右侧的 设置 按钮,填写您本地服务的 API 地址(例如 http://127.0.0.1:9880)。
  4. 角色 下拉菜单中,选择 Clone
  5. 上传 第一步 得到的 纯人声文件 (vocal.wav) 进行音色克隆。克隆成功后,会生成一个以小孩声音命名的角色。

第三步:视频翻译与配音(核心流程)

  1. 导入文件:回到主界面,在“输入”区域,导入您的 原始视频(不是分离后的音频)。
  2. 语音识别(第2行):

    • 选择识别模型,推荐 阿里FunASR(本地)(中文识别准)。
    • 发音语言中文auto
    • 重要:为了提高识别准确率,避免狗叫声干扰,建议在 高级选项 中:

      • 勾选 降噪
      • 适当调高 语音阈值(例如调到 0.6)。
  3. 翻译设置(第3行):

    • 目标语言 选择 英语
    • 选择翻译渠道(如 Google、DeepSeek 等)。
  4. 配音设置(第4行):

    • 选择您 第二步 克隆好的 小孩声音角色
  5. 同步与字幕(第5行):

    • 务必勾选 人声背景音分离。这是保留狗叫声的关键!
    • 勾选后,软件会自动将新生成的英文配音,与 第一步 分离出的 背景音 (instrument.wav,含狗叫) 合并,从而完美保留狗叫声。
    • 选择字幕形式(如嵌入硬字幕)。
  6. 执行(第6行):

    • 勾选 CUDA加速(如果可用)。
    • 点击 开始

流程总结

软件会按顺序执行:

  1. 阿里FunASR 识别小孩的原话(中文)。
  2. 将识别出的中文字幕 翻译成英文
  3. 克隆的小孩声音 合成 英文配音
  4. 将此新配音与您事先分离好的 背景音(含狗叫) 自动混合。
  5. 最终生成一个 小孩说英文、但背景狗叫声原样保留 的视频。

注意事项

  • 分离效果:如果视频中狗叫声与小孩声音重叠严重,人声分离可能不完美,新配音中可能会残留微量狗叫,但影响通常很小。
  • 识别优化:如果识别结果仍包含狗叫产生的乱码文字,请参考上一条回复,重点调整 VAD参数
  • 首次克隆:克隆音色需要一些时间生成模型,请耐心等待。

相关文档链接

纯人声 (vocal.wav)文件里有小孩子的声音和狗叫声

您遇到的情况是“人声分离不彻底”,导致 vocal.wav 中仍然混有狗叫声。这会严重影响后续的语音识别(产生乱码)和音色克隆(可能克隆进狗叫特征)。请按以下步骤解决:第一步:优化人声分离参数(首选方案)在工具箱的 人声背景音分离 功能中,使用的 UVR5 模型有多种算法,您需要选择更适合您音频的模型和参数。重新打开 工具 -> 工具箱 -> 人声背景音分离。在模型选择中,尝试更换模型。对于包含宠物叫声的场景,推荐尝试以下模型:HP2HP3 系列:这些是“人声提取”专用模型,对非人声的过滤更激进。Karaoke 系列:专门为人声和伴奏分离设计,也可能有效。调整分离强度:在参数设置中,寻找类似 “Aggressiveness”(强度)“Post-process”(后处理) 的选项。将强度调高(例如调到最高档 10),这会让模型更努力地将非人声成分(狗叫)推向背景音轨道。进行分离:用新参数重新分离您的视频,得到新的 vocal.wavinstrument.wav。用播放器试听新的 vocal.wav,检查狗叫声是否显著减弱或消失。第二步:如果分离仍不理想(备选方案)如果狗叫声与小孩声音在频率和节奏上高度相似,分离模型可能无法完全区分。此时,需要采用“识别后手动清理”的策略:使用优化后的 vocal.wav(即使仍有少量狗叫)进行语音识别。在 主界面 导入这个 vocal.wav 文件(或原始视频,但分离效果可能更差)。选择 阿里FunASR(本地) 进行识别。在 高级选项 中,务必进行强力过滤:勾选 降噪。大幅提高 语音阈值(例如设为 0.7 或更高)。进行识别。识别完成后,在 字幕编辑窗口 中,您会看到字幕。由于提高了阈值,大部分狗叫声可能已被过滤掉,识别出的行数会减少。仔细检查,手动删除任何明显由狗叫产生的、无意义的字幕行(如“汪”、“嗷”、乱码)。这样,您就得到了 纯净的小孩说话字幕。第三步:后续流程(克隆与配音)使用这个 经过手动清理的、准确的字幕文件 进行后续的翻译和配音。克隆音色时,虽然 vocal.wav 仍不完美,但您已经清理了字幕,因此翻译和配音的内容是基于正确文本的,最终输出的英文配音是干净的。在最终合成时,勾选 人声背景音分离,软件会将新配音与 instrument.wav(包含狗叫)合并,从而在最终视频中保留狗叫声。总结:核心矛盾在于 分离不彻底。优先尝试 第一步,更换更强力的分离模型和参数。如果分离效果仍不满意,则采用 第二步,通过提高识别阈值和手动编辑,确保 文本内容 的纯净,这是保证最终翻译配音准确的关键。相关文档链接:人声背景音分离调节VAD更精确控制语音识别结果

UVR5在哪?
image

在您的截图中,UVR5 就是 “人声背景音分离” 这个功能本身。您已经找到了它。

具体操作位置:

  1. 点击软件主界面顶部的菜单栏:工具
  2. 在下拉菜单中选择 工具箱
  3. 在弹出的工具箱窗口中,找到并点击 人声背景音分离

这个功能内部集成了 UVR5(Ultimate Vocal Remover 5)的核心算法,用于将音频中的人声和背景音(包括您的狗叫声)分离开来。

所以,您不需要额外寻找或安装 UVR5,直接使用这个内置功能即可。

关于您之前“分离不彻底”的问题,请在这个功能界面内操作:

  1. 点击 人声背景音分离 后,会弹出一个新窗口。
  2. 在窗口中,您可以:

    • 选择模型:尝试不同的分离模型(如 HP2HP3Karaoke 等)。
    • 调整参数:通常有“强度”或“后处理”滑块,将其调高以增强分离效果。
    • 导入您的视频文件,开始分离。

总结:您要找的 UVR5 就是 “人声背景音分离” 功能,请直接使用它并尝试更换模型和调高参数来解决狗叫声分离不彻底的问题。

相关文档链接:
人声背景音分离

我的版本V3.91,我在工具里选人声背景分离就出来了个这界面,我没有看到还能在哪里选模型和调参数的地方
image

paraformer-zh,sensevoicesmall,fun-Asr-nano-2512哪个好

语音识别:阿里FunASR(本地)中paraformer-zh,sensevoicesmall,fun-Asr-nano-2512哪个好

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions