#2151 split vocal/bgm

191.6* Posted at: 14 hours ago 👁15

oque o "split vocal/bgm" faz

3 Replies

A função "Separar vocal/BGM" (Split vocal/bgm) do pyVideoTrans realiza a separação de áudio, isolando a voz humana (vocal) da música de fundo (BGM/background music) ou de outros ruídos do vídeo/áudio original.

Como funciona e quando usar:

  1. Processo: O software usa um modelo de IA (como UVR5) para analisar o áudio e criar duas trilhas separadas:

    • Uma contendo apenas as vozes (para dublagem/transcrição).
    • Outra contendo apenas a música/efeitos de fundo.
  2. Fluxo de Tradução: Quando ativada, a sequência fica:

    • Separar vocal e BGM -> Transcrever o vocal isolado -> Traduzir -> Gerar nova dublagem -> Combinar a nova dublagem com a BGM original -> Produzir o vídeo final.
  3. Quando é útil:

    • Quando o áudio original tem música muito alta que atrapalha a transcrição (ASR).
    • Para obter uma dublagem mais limpa, sem a música original competindo com a nova voz.
    • Para preservar a trilha sonora original enquanto substitui apenas os diálogos.
  4. Atenção: Esta opção aumenta significativamente o tempo total de processamento, pois envolve mais uma etapa pesada de processamento de áudio. Use apenas se necessário.

Para ativá-la:
Na janela principal, clique no botão "Configurar mais parâmetros" (ao lado de "Executar tarefa") e marque a caixa "Separar vocal e fundo (extrair vocal)".

existe opção de desativa emoção na voz?

Sim, existe uma opção para desativar ou reduzir a emoção na voz sintetizada (TTS) no pyVideoTrans, mas ela depende do mecanismo de síntese de voz (TTS) que você está usando.

1. Para mecanismos de TTS baseados em IA (como os modelos de clonagem de voz ou TTS avançados):

  • GPT-SoVITS, CosyVoice, F5-TTS, etc.: O nível de emoção é geralmente controlado pelo "texto de referência" ou pelo "áudio de referência" que você fornece. Para obter uma voz neutra:

    • Use um áudio de referência com entonação plana e neutra.
    • No campo de texto de referência, escreva uma frase simples com tom neutro (por exemplo, "Olá, como vai você?" dito de forma calma).
  • OpenAI TTS, ElevenLabs, etc.: Essas APIs geralmente possuem parâmetros como stability (estabilidade) ou style (estilo). No pyVideoTrans, você pode tentar ajustar a "Taxa de similaridade" (se disponível) para um valor mais baixo, o que pode reduzir a expressividade emocional copiada de um áudio de referência.

2. Para mecanismos de TTS padrão (Edge-TTS, VITS, Piper, Azure TTS):

  • Esses mecanismos geralmente não possuem um controle direto de "emoção" na interface do pyVideoTrans. A emoção é inerente ao modelo de voz escolhido.
  • Solução: Selecione uma voz que soe naturalmente mais neutra ou robótica na lista de vozes disponíveis. Por exemplo, vozes como "Microsoft David" ou "Google US News" tendem a ser menos expressivas.

3. Ajustes Gerais (disponíveis para todos):

  • Na linha de configurações de "Dublagem (TTS)", você pode ajustar a "Velocidade de fala" e o "Tom".
  • Definir a velocidade para um valor ligeiramente mais rápido (por exemplo, +10%) e o tom para um valor médio (0%) pode, subjetivamente, tornar a voz menos dramática.

Resumo da Ação:

  1. Para vozes clonadas/IA: Use um áudio e texto de referência com tom neutro.
  2. Para vozes padrão: Experimente selecionar uma voz diferente da lista que soe menos emotiva.
  3. Ajuste os parâmetros de velocidade e tom para influenciar a percepção da emoção.

Infelizmente, não há um simples botão "Desativar Emoção" universal, pois o controle depende muito do mecanismo TTS subjacente.

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions