O VASA-1 da Microsoft pode gerar rostos falantes realistas a partir de apenas uma imagem.

Em um white paper recente, a Microsoft apresentou um novo modelo de IA que produz uma cabeça falante que parece e soa realista e é gerada apenas pelo upload de uma fotografia e uma amostra de voz.

O novo modelo é denominado VASA-1 e requer apenas uma imagem em estilo retrato e um arquivo de áudio de voz e os funde para fazer um pequeno vídeo de uma cabeça falante com expressões faciais, sincronização labial e movimentos de cabeça. A cabeça produzida pode até cantar músicas, e isso na voz carregada no momento da criação.

Microsoft VASA-1 é um avanço para animação

Segundo a Microsoft, o novo modelo de IA ainda está em fase de pesquisa e ainda não há planos de lançá-lo ao público em geral, e apenas pesquisadores da Microsoft têm acesso a ele. No entanto, a empresa compartilhou algumas amostras das demonstrações, que mostram um realismo impressionante e movimentos labiais que parecem muito realistas.

Fonte: Microsoft

A demonstração mostra pessoas que parecem reais, como se estivessem sentadas na frente de uma câmera sendo filmadas. Os movimentos das cabeças são realistas e parecem bastante naturais, e o movimento dos lábios para combinar com o áudio é bastante notável, desde que pareça muito pouco a ser notado por não ser natural. A sincronização geral da boca é fenomenal.

A Microsoft afirmou que o modelo foi desenvolvido para animar personagens virtuais, e alegou que todas as pessoas mostradas na demo são sintéticas, pois disseram, os modelos foram gerados a partir do DALL-E, que é o gerador de imagens do OpenAI. Então pensamos que se ele pode animar um modelo gerado por IA, então obviamente há muito mais potencial nele para animar fotos de qualquer pessoa real, o que deve ser mais realista e muito mais fácil de manusear.

Casos de uso do Vasa-1 e seu potencial uso indevido

Fonte: Microsoft

Se olharmos para o potencial do VASA-1 para uso prático, então, basicamente, ele pode ser usado para animar personagens em filmes de animação, o que dará aos personagens uma sensação mais realista com expressões faciais e movimentos de cabeça naturais. Outro uso poderia ser em videogames, pelo mesmo motivo, pense em Grand Theft Auto e similares. No futuro, ele poderá ser usado para filmes ou séries hiper-realistas gerados por IA, onde os personagens podem ser gerados a partir de geradores de imagens e podem ser animados pelo VASA-1, e o público pode nem sentir que os personagens não são humanos.

Juntamente com o uso criativo da ferramenta, ela também pode ser aproveitada para criar conteúdo para fins maliciosos. O potencial uso indevido do VASA-1 pode ser a sua utilização para deepfakes, pois tornará mais fácil para qualquer pessoa envolvida em criações deepfake ampliar suas táticas ruins e gerar conteúdo enganoso mais realista. Lembra-se do escândalo robocall envolvendo a voz de Biden para impedir as pessoas de votar antes das eleições primárias? Agora poderia ser um robovideo após a robocall, e isso com expressões humanas muito realistas.

O risco potencial de uso indevido pode ser a razão pela qual a Microsoft limitou seus testes apenas aos seus pesquisadores. Segundo pesquisadores da Microsoft, a ferramenta pode ser usada para criar conteúdo enganoso e enganoso para se passar por humanos, como algumas outras ferramentas, mas visam aplicativos de uso positivo. Nvidia e Runway AI também lançaram seus modelos para a mesma função, mas o VASA-1 parece muito mais realista e um candidato promissor. 

O artigo de pesquisa pode ser visto aqui e a nota da Microsoft aqui.

Fonte: https://www.cryptopolitan.com/microsofts-vasa-1-can-generate-talking-faces/