Os pesquisadores da Nvidia criaram um novo gerador de áudio de inteligência artificial (IA) chamado Fugatto, que afirmam ser capaz de criar sons nunca ouvidos antes.
Fugatto (abreviação de Foundational Generative Audio Transformer Opus 1) foi criado para ser o “canivete suíço para som” e permite aos usuários editar ou gerar áudio com instruções de texto simples, escreveu a gigante dos semicondutores em uma postagem no blog em 25 de novembro de 2024.
Leia também: Centro aprova projeto PAN 2.0: novidades, principais benefícios e tudo o que você precisa saber
Exemplos dessas instruções podem incluir a remoção de um instrumento específico de uma música, a alteração do sotaque da voz de alguém e assim por diante.
“Queríamos criar um modelo que entendesse e gerasse som como os humanos fazem”, disse Rafael Valle, gerente de pesquisa aplicada de áudio da NVIDIA e uma das mais de uma dúzia de pessoas por trás do Fugatto, além de maestro e compositor de orquestra.
As aplicações do Fugatto podem ser diversas. Por exemplo, uma agência de publicidade poderia usá-lo para fazer anúncios para diversas regiões, aplicando diferentes sotaques e emoções às narrações, cursos on-line podem ser criados com a voz de um membro da família ou amigo, os videogames podem usá-lo para criar novos recursos no voar, e assim por diante.
Também pode ir tão longe quanto fazer um latido de trombeta ou um miado de saxofone. Os limites são apenas a imaginação do usuário.
Os pesquisadores até descobriram que ele pode realizar tarefas para as quais nunca foi treinado, como gerar uma voz cantada de alta qualidade a partir de um prompt de texto.
O modelo usa uma técnica chamada ComposableART para combinar instruções. Por exemplo, uma combinação de instruções pode solicitar um texto falado com um sentimento triste e com sotaque francês.
Leia também: Mahindra chega ao mercado de EV com BE 6e e XEV 9e, saiba tudo sobre eles
Também pode gerar sons que mudam com o tempo, recurso chamado interpolação temporal. Por exemplo, ele pode criar os sons de uma tempestade se movendo por uma área com crescendos de trovões que desaparecem lentamente à distância, dando também aos usuários um controle refinado sobre como a paisagem sonora evolui.
A ferramenta foi feita por um grupo diversificado de pessoas de todo o mundo, incluindo Índia, Brasil, China, Jordânia e Coreia do Sul. A Nvidia afirma que isso fortaleceu as capacidades multi-sotaques e multilíngues do Fugatto.
A versão completa do Fugatto usa 2,5 bilhões de parâmetros e foi treinada em um banco de sistemas NVIDIA DGX com 32 GPUs NVIDIA H100 Tensor Core.
No entanto, tudo isto também traz alguns problemas potenciais que remontam à antiga ideia de como a IA pode assumir o controle dos empregos das pessoas e também levar a questões de direitos autorais.
Por exemplo, a Associação Australiana de Dubladores alertou uma comissão parlamentar que estima que cerca de 5.000 dubladores locais poderão em breve perder o emprego se as empresas optarem por substitutos baseados em IA.
Além disso, até mesmo a indústria musical tem demonstrado preocupação com a violação de conteúdo protegido por direitos autorais pela IA generativa. A Recording Industry Association of America, por exemplo, abriu recentemente um processo contra ferramentas de IA por supostamente replicarem suas músicas.
No entanto, também há um lado mais positivo nisso, dependendo de como é visto. Os artistas podem usá-lo para auxiliar seus trabalhos.
“O som é minha inspiração. É o que me move a criar música. A ideia de poder criar sons inteiramente novos dinamicamente no estúdio é incrível”, disse Ido Zmishlany, produtor e compositor multi-platina e cofundador da One Take Audio, membro do programa NVIDIA Inception para startups.
Leia também: Intel recebe subsídio do governo dos EUA para fabricação de chips de US$ 7,86 bilhões