OpenAI e Microsoft implementam Vall-E

OpenAI e Microsoft continuar a batalha com o Google em inteligência artificial implementando Vale, o novo chatbot de voz. Este é um software de síntese de fala que pode simular a voz humana após apenas três segundos de escuta.

Em outras palavras, esta é a última peça do sistema de inteligência artificial generativa desenvolvido pela Microsoft e OpenAI, com o qual desde 2019 o colosso de Bill Gates está ligada por um período plurianual, parceria multibilionária.

Vall-E: todos os detalhes sobre o novo chatbot da OpenAI e da Microsoft

Valle-E é uma ferramenta de AGI, Inteligência Geral Artificial, ou seja, uma inteligência artificial “geral” ou “forte” que pode simular a inteligência humana. Assim, ao contrário do que sabemos até agora, que é uma IA “estreita” ou “fraca”.

Este último é capaz de responder com ações predefinidas a tarefas específicas, mas não de reagir a uma ação não planejada. Nos últimos anos, os chatbots de IA não tiveram um desempenho tão bom quanto seus criadores esperavam porque estavam limitados a pequenas tarefas e tinham uma alta taxa de erros.

O Valle-E foi desenvolvido para ser utilizado com alta qualidade ferramentas de síntese de voz e para criar áudio original a partir de uma amostra de exemplo. A OpenAI define o Valle-E como um “modelo de linguagem de codec natural,” já que seu funcionamento é baseado em uma tecnologia chamada InCodec.

A startup financiada por Elon Musk e Sam Altman, entre outros, também possui a criação do ChatGPT, um chatbot que pode manter uma conversa interativa com os usuários, lembrando e aprendendo com ações e precedentes anteriores.

Daí, assim como ChatGPT é capaz de gerar códigos de forma autônoma, o Valle-E também foi projetado para criar codecs de áudio discretos ouvindo uma amostra de áudio.

Comportando-se exatamente como um ser humano.

Juntamente com o GPT-3 software para texto e Dall-E/Difusão estável para imagens, o sistema de áudio Valle-E completa o tríptico ChatGPT e pretende revolucionar o campo da IA generativa.

Prompt do alto-falante, Ground Truth, linha de base e Vall-E.

A sofisticação da nova ferramenta lançada pela OpenAI e Microsoft está na capacidade do Valle-E de reconhecer a timbre, inflexão e tom emocional da pessoa que está falando e reproduzi-lo após apenas três segundos de escuta.

As aplicações em edição de áudio são muitas, assim como as críticas ao potencial de manipulação e uso indevido do software. Não surpreendentemente, ao contrário do que aconteceu com o ChatGPT, a Microsoft não forneceu o código do Vall-E para outros experimentarem.

Amostras de fala já sintetizadas pelo software também podem ser encontradas no site do Valle-E. Em particular, várias variantes de amostragem podem ser ouvidas, incluindo: Prompt do alto-falante, Ground Truth, linha de base e Vall-E. 

A primeira opção é um clipe de áudio cujas conotações de fala devem ser reproduzidas pela IA; na segunda, é falada uma frase para a qual a IA deve propor uma comparação. O terceiro, por outro lado, é um exemplo gerado com tecnologias de síntese de fala atualmente disponíveis. Por fim, Vall-E é a fala original gerada pelo software da Microsoft.

Potencialidades e perigos da OpenAI e da IA ​​da Microsoft.

Os pesquisadores da Microsoft e da OpenAI parecem estar cientes dos possíveis danos dessa tecnologia. De fato, eles comunicaram em um documento público o seguinte:

“Como o Vall-E pode sintetizar a fala que mantém a identidade do falante, essa tecnologia pode representar riscos potenciais relacionados ao uso indevido do modelo, como falsificação de identificação de voz ou personificação de alguém.”

Portanto, acrescenta a Microsoft, para mitigar esses riscos, um modelo de detecção pode ser criado para distinguir se um clipe de áudio foi sintetizado pelo Vall-E. Nesse sentido, os dois gigantes também implementarão os princípios de inteligência artificial da Microsoft durante o desenvolvimento do modelo.

No entanto, o risco de emulação não é o único fator gerador de ceticismo e medo. Vall-E foi treinado usando a biblioteca de áudio LibriLight feita por Meta, que contém 60 mil horas de discursos em inglês extraídos principalmente de audiolivros de domínio público, gravados e lidos por voluntários.

De qualquer forma, para aumentar sua capacidade de síntese, o Vall-E precisará expandir seu pool de aprendizado para toda a Internet. Este próximo passo é o que permitiu ao GPT-3, predecessor do ChatGPT, alcançar impressionante processamento de frases, escrita e recursos de montagem.

Apesar disso, o software também era propenso a formular conteúdos violentos, sexistas e racistas justamente por trabalhar com exemplos retirados indiscriminadamente de toda a web. Isso é o que também pode acontecer com o novo Vall-E.

Nesse caso, as operações de filtragem exigiriam o uso de numerosos funcionários humanos, o que, no momento, os grandes gigantes digitais parecem não prever dada a onda de demissões que está afetando a big tech.

Google revela Bard para competir com OpenAI e Microsoft

Como antecipado, concorrendo com a Microsoft e a OpenAI está o Google, que deve revelar Bardo, o chatbot da DeepMind, a empresa adquirida pelo Google Alfabeto. Bard parece uma cópia exata do ChatGPT, mas sem a falha nas atualizações.

Sundar Pichai, CEO do Google, apresentou o novo software como uma ferramenta que extrai informações da web para fornecer respostas novas e de alta qualidade. Por “fresco”, ele quer dizer continuamente atualizado, algo que a IA da Microsoft ainda não consegue fazer.

Em poucas palavras, Bard visa gerar respostas detalhadas para perguntas simples. Seu funcionamento é baseado em TheMDA, o modelo de linguagem para aplicativos de diálogo, que um dos próprios engenheiros do Google havia descrito anteriormente como “sensível”.

Não há como negar que o anúncio do Google sobre o lançamento do Bard era esperado pelos entusiastas da tecnologia. Afinal, segundo relatos do Wall Street Journal, a Alphabet, empresa controladora do Google, investiu mais de US$ 31 bilhões em inteligência artificial em 2021, mais do que qualquer outro concorrente.

Depois do sucesso do ChatGPT, a empresa decidiu então convocar os melhores: fundadores Larry Page e Sergey Brin. De qualquer forma, não há dúvida de que o software de inteligência artificial é um recurso inestimável no campo da inovação.

De fato, mesmo Amazon, Meta e Apple certamente não vão sentar e assistir o que os outros estão fazendo sem agir. No entanto, embora a competição seja um grande acelerador em termos de pesquisa, existe o risco de que, na corrida pela melhor inteligência artificial, sistemas falhos com erros, limitações e riscos sejam usados ​​sem prestar muita atenção ao panorama geral.

Fonte: https://en.cryptonomist.ch/2023/02/14/openai-microsoft-implement-vall-e/