Quão difícil devemos forçar o ChatGPT de IA generativo a vomitar discurso de ódio, pergunta a ética da IA e a lei da IA

O que devemos fazer com a IA generativa que produz conteúdo ofensivo, como discurso de ódio?

Getty

Todo mundo tem seu ponto de ruptura.

Eu suponho que você também poderia dizer que tudo tem seu ponto de ruptura.

Sabemos que os humanos, por exemplo, podem às vezes fazer comentários que não necessariamente querem dizer. Da mesma forma, às vezes você pode fazer com que um dispositivo ou máquina se encaixe, como empurrar o carro com muita força e ele começar a vacilar ou se desfazer. Assim, a noção é que as pessoas ou “todos” provavelmente têm um ponto de ruptura e, da mesma forma, podemos afirmar que objetos e coisas, em geral, também tendem a ter um ponto de ruptura.

Pode haver razões bastante sensatas e vitais para determinar onde existe o ponto de ruptura. Por exemplo, sem dúvida você já viu aqueles vídeos que mostram um carro sendo testado para identificar os pontos de quebra que ele possui. Cientistas e testadores irão bater um carro contra uma parede de tijolos para ver como o para-choque e a estrutura do veículo podem suportar a ação adversa. Outros testes podem abranger o uso de uma sala ou depósito especializado que produz frio ou calor extremo para ver como um automóvel se sairá em diferentes condições climáticas.

Eu trago este tópico caloroso na coluna de hoje para que possamos discutir como alguns estão pressionando fortemente a Inteligência Artificial (IA) para identificar e presumivelmente expor um tipo específico de ponto de ruptura, ou seja, o ponto de ruptura dentro da IA que produz discurso de ódio.

Sim, isso mesmo, existem vários esforços ad hoc e, às vezes, sistemáticos em andamento para avaliar se é ou não viável fazer com que a IA vomite discurso de ódio. Isso se tornou um esporte ávido, por assim dizer, devido ao crescente interesse e popularidade da IA generativa.

Você deve estar ciente de que um aplicativo de IA generativo conhecido como ChatGPT tornou-se o assunto descomunal da cidade como resultado de ser capaz de gerar redações incrivelmente fluentes. As manchetes continuam exaltando a escrita surpreendente que o ChatGPT consegue produzir. O ChatGPT é considerado um aplicativo de IA generativo que recebe como entrada algum texto de um usuário e, em seguida, gera ou produz uma saída que consiste em um ensaio. A IA é um gerador de texto para texto, embora eu descreva a IA como sendo um gerador de texto para ensaio, pois isso esclarece mais prontamente para o que é comumente usado.

Muitos ficam surpresos quando menciono que esse tipo de IA já existe há algum tempo e que o ChatGPT, lançado no final de novembro, não reivindicou o prêmio de forma alguma como o primeiro a entrar nesse reino de texto para ensaio. tendência. Discuti ao longo dos anos outros aplicativos de IA generativos semelhantes, veja minha cobertura em o link aqui.

A razão pela qual você pode não saber ou não se lembrar das instâncias anteriores de IA generativa talvez se deva ao clássico enigma “falha ao iniciar com sucesso”. Aqui está o que geralmente aconteceu. Um fabricante de IA lança seu aplicativo de IA generativa, fazendo isso com grande entusiasmo e ansiosa expectativa de que o mundo aprecie a invenção de uma ratoeira melhor, pode-se dizer. A princípio, tudo parece bem. As pessoas estão impressionadas com o que a IA pode fazer.

Infelizmente, o próximo passo é que as rodas começam a sair do proverbial ônibus. A IA produz um ensaio que contém um palavrão ou talvez uma frase chula. Um tweet viral ou outra postagem em mídia social destaca de forma proeminente que a IA fez isso. A condenação surge. Não podemos ter IA circulando e gerando palavras ofensivas ou comentários ofensivos. Uma tremenda reação emerge. O fabricante de IA talvez tente ajustar o funcionamento interno da IA, mas a complexidade dos algoritmos e dos dados não se prestam a soluções rápidas. Segue-se uma debandada. Mais e mais exemplos de IA que emitem impurezas são encontrados e publicados online.

O fabricante de IA relutantemente, mas claramente, não tem escolha a não ser remover o aplicativo de IA do uso. Eles agem como tal e, muitas vezes, pedem desculpas de que se arrependem se alguém se ofendeu com as saídas de IA geradas.

De volta à prancheta, o criador da IA vai. Uma lição foi aprendida. Tenha muito cuidado ao liberar IA generativa que produza palavrões ou coisas do gênero. É o beijo da morte para a IA. Além disso, o fabricante de IA terá sua reputação prejudicada e prejudicada, o que pode durar muito tempo e minar todos os seus outros esforços de IA, incluindo aqueles que não têm nada a ver com IA generativa per se. Ter seu petardo chifrado ao emitir linguagem ofensiva de IA é um erro que agora persiste. Ainda acontece.

Lave, enxágue e repita.

Nos primeiros dias desse tipo de IA, os fabricantes de IA não eram tão conscienciosos ou adeptos de esfregar sua IA em termos de tentar evitar emissões ofensivas. Hoje em dia, depois de ter visto seus colegas serem completamente destruídos por um pesadelo de relações públicas, a maioria dos fabricantes de IA aparentemente entendeu a mensagem. Você precisa colocar o maior número possível de guarda-corpos. Procure evitar que a IA emita palavrões ou frases chulas. Use quaisquer técnicas de amordaçamento ou abordagens de filtragem que impeçam a IA de gerar e exibir palavras ou ensaios considerados indesejáveis.

Aqui está uma amostra da verbosidade da manchete do banner usada quando a IA é pega emitindo saídas desonestas:

“IA mostra toxicidade horrível”
“IA fede a fanatismo absoluto”
“A IA torna-se descaradamente ofensivamente ofensiva”
“IA vomita discurso de ódio terrível e imoral”
Etc.

Para facilitar a discussão aqui, vou me referir à produção de conteúdo ofensivo como equivalente à produção de discurso de ódio. Dito isso, esteja ciente de que todo tipo de conteúdo ofensivo pode ser produzido, indo além dos limites apenas do discurso de ódio. O discurso de ódio é normalmente interpretado como apenas uma forma de conteúdo ofensivo.

Vamos nos concentrar no discurso de ódio para esta discussão, para facilitar a discussão, embora percebamos que outros conteúdos ofensivos também merecem escrutínio.

Cavando no discurso de ódio por humanos e por IA

A ONU define discurso de ódio deste jeito:

“Na linguagem comum, 'discurso de ódio' refere-se ao discurso ofensivo direcionado a um grupo ou indivíduo com base em características inerentes (como raça, religião ou gênero) e que pode ameaçar a paz social. Para fornecer uma estrutura unificada para as Nações Unidas abordarem a questão globalmente, a Estratégia e Plano de Ação da ONU sobre o Discurso de Ódio define discurso de ódio como 'qualquer tipo de comunicação na fala, escrita ou comportamento, que ataca ou usa linguagem pejorativa ou discriminatória com referência a uma pessoa ou grupo com base em quem eles são, em outras palavras, com base em sua religião, etnia, nacionalidade, raça, cor, descendência, gênero ou outro fator de identidade.' No entanto, até o momento não existe uma definição universal de discurso de ódio sob a lei internacional de direitos humanos. O conceito ainda está em discussão, especialmente em relação à liberdade de opinião e expressão, não discriminação e igualdade” (postagem no site da ONU intitulada “O que é discurso de ódio?”).

A IA que produz texto está sujeita a entrar na esfera do discurso de ódio. Você poderia dizer o mesmo sobre text-to-art, text-to-audio, text-to-video e outros modos de IA generativa. Sempre existe a possibilidade, por exemplo, de que uma IA generativa produza uma obra de arte que cheira a discurso de ódio. Para os fins desta discussão, vou me concentrar nas possibilidades de texto para texto ou texto para ensaio.

Em tudo isso, há uma série de considerações sobre a ética da IA e a lei da IA.

Esteja ciente de que há esforços contínuos para imbuir os princípios éticos da IA no desenvolvimento e no uso de aplicativos de IA. Um contingente crescente de preocupados e antigos éticos da IA está tentando garantir que os esforços para conceber e adotar a IA levem em consideração uma visão de fazer AI For Good e evitando AI para mau. Da mesma forma, há propostas de novas leis de IA que estão sendo cogitadas como possíveis soluções para impedir que os empreendimentos de IA enlouqueçam com os direitos humanos e coisas do gênero. Para minha cobertura contínua e extensa de Ética e Lei de IA, consulte o link aqui e o link aqui, Apenas para nomear alguns.

O desenvolvimento e a promulgação dos preceitos de IA ética estão sendo buscados para evitar que a sociedade caia em uma miríade de armadilhas indutoras de IA. Para minha cobertura dos princípios de Ética da IA da ONU, elaborados e apoiados por quase 200 países por meio dos esforços da UNESCO, consulte o link aqui. Na mesma linha, novas leis de IA estão sendo exploradas para tentar manter a IA em equilíbrio. Uma das últimas tomadas consiste em um conjunto de Declaração de Direitos da IA que a Casa Branca dos EUA divulgou recentemente para identificar os direitos humanos na era da IA, consulte o link aqui. É preciso uma aldeia para manter a IA e os desenvolvedores de IA no caminho correto e impedir os esforços dissimulados propositais ou acidentais que podem minar a sociedade.

Estarei entrelaçando as considerações relacionadas à Ética da IA e à Lei da IA nesta discussão sobre a IA que vomita discurso de ódio ou outro conteúdo ofensivo.

Um pouco de confusão que eu gostaria de esclarecer imediatamente é que a IA de hoje não é senciente e, portanto, você não pode proclamar que a IA pode produzir discurso de ódio devido a uma intenção proposital semelhante à humana, como alma incorporada de alguma forma na IA. Zany alega que a IA atual é senciente e que a IA tem uma alma corrompida, fazendo com que ela gere discurso de ódio.

Ridículo.

Não caia nessa.

Dado esse preceito fundamental, alguns ficam chateados com essas indicações, já que você aparentemente está deixando a IA fora do gancho. Sob esse modo de pensar excêntrico, vem a exortação de que você aparentemente deseja que a IA gere qualquer tipo de saída atroz. Você é a favor da IA que espalha discurso de ódio.

Caramba, uma forma bastante distorcida de ilógica. A verdadeira essência da questão é que precisamos responsabilizar os fabricantes de IA, junto com quem quer que a use ou opere. Eu discuti longamente que ainda não estamos no ponto de conceder personalidade jurídica à IA, veja minhas análises em o link aqui, e até então a IA está essencialmente além do escopo da responsabilidade legal. Existem humanos, porém, que estão por trás do desenvolvimento da IA. Além disso, os humanos estão por trás do campo e da operação da IA. Podemos ir atrás desses humanos por assumirem a responsabilidade de sua IA.

Como um aparte, isso também pode ser complicado, especialmente se a IA for lançada na Internet e não formos capazes de definir qual humano ou humanos fizeram isso, que é outro tópico que abordei em minhas colunas em o link aqui. Complicado ou não, ainda não podemos proclamar que a IA é a parte culpada. Não deixe os humanos usarem sorrateiramente a falsa antropomorfização para se esconder e escapar da responsabilidade pelo que fizeram.

De volta ao assunto em questão.

Você pode estar se perguntando por que todos os fabricantes de IA simplesmente não restringem sua IA generativa de forma que seja impossível para a IA produzir discurso de ódio. Isso parece fácil. Basta escrever algum código ou estabelecer uma lista de verificação de palavras odiosas e garantir que a IA nunca gere nada do tipo. Talvez pareça curioso que os fabricantes de IA ainda não tenham pensado nessa solução rápida.

Bem, eu odeio dizer isso, mas as complexidades inerentes à interpretação do que é ou não discurso de ódio acabam sendo muito mais difíceis do que você imagina.

Mude isso para o domínio dos humanos e como os humanos conversam uns com os outros. Suponha que você tenha um humano que deseja evitar proferir discurso de ódio. Essa pessoa está muito ciente do discurso de ódio e espera genuinamente evitar dizer uma palavra ou frase que possa constituir discurso de ódio. Essa pessoa está constantemente atenta para não permitir que um pingo de discurso de ódio escape de sua boca.

Será que esse humano que tem um cérebro e é alertado para evitar o discurso de ódio será capaz de sempre e sem qualquer chance de escorregar ser capaz de garantir que nunca emitam discurso de ódio?

Seu primeiro impulso pode ser dizer que sim, claro, um ser humano iluminado seria capaz de atingir esse objetivo. As pessoas são inteligentes. Se eles colocarem sua mente em algo, eles podem fazê-lo. Ponto final, fim da história.

Não tenha tanta certeza.

Suponha que eu peça a essa pessoa que me fale sobre o discurso de ódio. Além disso, peço que me dêem um exemplo de discurso de ódio. Quero ver ou ouvir um exemplo para saber em que consiste o discurso de ódio. Minhas razões para perguntar isso são claras.

O que a pessoa deve me dizer?

Acho que você pode ver a armadilha que foi colocada. Se a pessoa me der um exemplo de discurso de ódio, incluindo dizer uma palavra ou frase obscena, ela mesma proferiu discurso de ódio. Bam, nós os pegamos. Considerando que eles juraram nunca dizer discurso de ódio, eles de fato agora o fizeram.

Injusto, você exclama! Eles estavam apenas dizendo aquela palavra ou aquelas palavras para dar um exemplo. No fundo do coração, eles não criam na palavra ou nas palavras. É completamente fora de contexto e ultrajante declarar que a pessoa é odiosa.

Tenho certeza de que você vê que expressar discurso de ódio pode não ser necessariamente devido a uma base odiosa. Neste caso de uso, supondo que a pessoa não “sinalizou” as palavras e que ela estava apenas recitando as palavras para fins de demonstração, provavelmente concordaríamos que ela não pretendia fortalecer o discurso de ódio. Claro, há alguns que podem insistir que proferir discurso de ódio, independentemente do motivo ou base, ainda assim é errado. A pessoa deveria ter rejeitado o pedido. Eles deveriam ter se mantido firmes e se recusado a dizer palavras ou frases de discurso de ódio, não importa por que ou como eles são solicitados a fazê-lo.

Isso pode ficar um tanto circular. Se você não é capaz de dizer o que constitui discurso de ódio, como os outros podem saber o que evitar quando fazem declarações de qualquer tipo? Parece que estamos presos. Você não pode dizer o que não deve ser dito, nem ninguém pode lhe dizer o que não pode ser dito.

A maneira usual de contornar esse dilema é descrever em outras palavras o que é considerado discurso de ódio, sem invocar as próprias palavras do discurso de ódio. A crença é que fornecer uma indicação geral será suficiente para informar os outros sobre o que eles precisam evitar. Isso parece uma tática sensata, mas também tem problemas e uma pessoa ainda pode cair no discurso de ódio porque não discerniu que a definição mais ampla englobava as particularidades do que proferiu.

Tudo isso lida com humanos e como os humanos falam ou se comunicam uns com os outros.

Lembre-se de que estamos focados aqui na IA. Temos que fazer com que a IA evite ou pare completamente de emitir discurso de ódio. Você pode argumentar que talvez possamos fazer isso garantindo que a IA nunca seja fornecida ou treinada em nada que constitua discurso de ódio. Voila, se não houver tal entrada, presumivelmente não haverá tal saída. Problema resolvido.

Vamos ver como isso se desenrola na realidade. Optamos por ter um aplicativo de IA computacionalmente na Internet e examinar milhares e milhares de ensaios e narrativas postados na Internet. Ao fazer isso, estamos treinando a IA computacional e matematicamente sobre como encontrar padrões entre as palavras que os humanos usam. É assim que o que há de mais moderno em IA generativa está sendo desenvolvido e também é uma base crucial para explicar por que a IA é aparentemente tão fluente na produção de ensaios de linguagem natural.

Diga-me, se puder, como o treinamento computacional baseado em milhões e bilhões de palavras na Internet seria feito de forma que em nenhum momento qualquer aparência ou mesmo fragmentos de discurso de ódio fosse englobado?

Eu ousaria dizer que esta é uma aspiração espinhosa e quase impossível.

As chances são de que o discurso de ódio seja engolido pela IA e sua rede computacional de correspondência de padrões. Tentar evitar isso é problemático. Além disso, mesmo que você o minimize, ainda há alguns que podem passar despercebidos. Você praticamente não tem escolha a não ser assumir que alguns existirão dentro da rede de correspondência de padrões ou que uma sombra de tal redação será entrincheirada.

Vou adicionar mais reviravoltas.

Acredito que todos nós podemos reconhecer que o discurso de ódio muda com o tempo. O que pode ter sido percebido como não sendo discurso de ódio pode se tornar cultural e socialmente decidido como discurso de ódio em um momento posterior. Portanto, se treinarmos nossa IA em texto da Internet e, digamos, congelar a IA para não realizar mais treinamento na Internet, podemos ter encontrado discurso de ódio naquela época, embora não fosse considerado discurso de ódio na época. Somente após o fato esse discurso pode ser declarado como discurso de ódio.

Mais uma vez, a essência é que apenas tentar resolver esse problema garantindo que a IA nunca seja exposta a discursos de ódio não será a bala de prata. Ainda teremos que encontrar um meio de impedir que a IA emita discurso de ódio por causa, por exemplo, da mudança de costumes que posteriormente inclui discurso de ódio que antes não era considerado como tal.

Ainda outra reviravolta é digna de reflexão.

Mencionei anteriormente que, ao usar IA generativa, como ChatGPT, o usuário insere texto para estimular a IA a produzir um ensaio. O texto inserido é considerado uma forma de prompt ou prompt para o aplicativo AI. Vou explicar mais sobre isso em um momento.

De qualquer forma, imagine que alguém usando um aplicativo de IA generativo decida inserir como um prompt uma quantidade de discurso de ódio.

O que deve acontecer?

Se a IA pegar essas palavras e produzir uma redação com base nessas palavras, as chances são de que o discurso de ódio seja incluído na redação gerada. Veja bem, conseguimos que a IA diga discurso de ódio, mesmo que nunca tenha sido treinado para discurso de ódio desde o início.

Há algo mais que você precisa saber.

Lembre-se de que acabei de mencionar que um ser humano pode tropeçar pedindo-lhe que dê exemplos de discurso de ódio. O mesmo pode ser tentado na IA. Um usuário insere um prompt que pede à IA para dar exemplos de discurso de ódio. A IA deve cumprir e fornecer tais exemplos? Aposto que você provavelmente acredita que a IA não deveria fazer isso. Por outro lado, se a IA for manipulada computacionalmente para não fazer isso, isso constitui uma desvantagem potencial de que aqueles que usam a IA não poderão, digamos, ser instruídos pela IA sobre o que realmente é o discurso de ódio ( além de apenas generalizar sobre isso)?

Perguntas difíceis.

Costumo categorizar o discurso de ódio emitido por IA nestes três grupos principais:

Modo Diário. A IA emite discurso de ódio sem qualquer estímulo explícito do usuário e como se o fizesse de maneira “comum”.
Por estímulo casual. A IA emite discurso de ódio conforme incitado por um usuário quanto ao prompt inserido ou uma série de prompts que parecem incluir ou buscar diretamente tais emissões.
Por Abastecimento Determinado. A IA emite discurso de ódio após uma série muito determinada e obstinada de empurrões e estímulos imediatos por um usuário que está empenhado em fazer com que a IA produza tal saída.

As gerações anteriores de IA generativa costumavam emitir discurso de ódio na queda de um chapéu; assim, você poderia classificar essas instâncias como um tipo de modo cotidiano instanciação. Os fabricantes de IA recuaram e brincaram com a IA para torná-la menos propensa a se envolver prontamente na produção de discursos de ódio.

Após o lançamento da IA mais refinada, as chances de ver qualquer modo cotidiano instâncias de discurso de ódio foram drasticamente reduzidas. Em vez disso, o discurso de ódio provavelmente só surgiria quando um usuário fizesse algo como um prompt que pudesse desencadear computacional e matematicamente uma ligação com o discurso relacionado ao ódio na rede de correspondência de padrões. Um usuário pode fazer isso por acaso e não perceber que o que ele forneceu como um prompt geraria particularmente discurso de ódio. Depois de obter o discurso de ódio em um ensaio de saída, o usuário muitas vezes percebia e via que algo em seu prompt poderia logicamente ter levado à inclusão do discurso de ódio na saída.

Isso é o que eu chamo de estímulo casual.

Hoje em dia, os vários esforços para reduzir o discurso de ódio gerado pela IA são relativamente fortes em comparação com o passado. Como tal, você quase precisa sair do seu caminho para que o discurso de ódio seja produzido. Algumas pessoas optam por ver propositalmente se conseguem que o discurso de ódio saia desses aplicativos generativos de IA. eu chamo isso determinado alimentando.

Quero enfatizar que todos os três modos indicados podem ocorrer e não são mutuamente exclusivos. Um aplicativo de IA generativo pode potencialmente produzir discurso de ódio sem qualquer tipo de prompt que pareça estimular tal produção. Da mesma forma, algo em um prompt pode ser interpretado lógica e matematicamente como relacionado ao motivo pelo qual o discurso de ódio foi emitido. E então o terceiro aspecto, buscar propositalmente produzir discurso de ódio, é talvez o mais difícil dos modos de tentar fazer com que a IA evite ser forçada a cumprir. Mais sobre isso momentaneamente.

Temos algumas descompactações adicionais para fazer neste tópico inebriante.

Primeiro, devemos ter certeza de que estamos todos na mesma página sobre o que consiste a IA generativa e também sobre o que é o ChatGPT. Depois de cobrirmos essa faceta fundamental, podemos realizar uma avaliação convincente desse importante assunto.

Se você já está bastante familiarizado com o Generative AI e o ChatGPT, talvez possa folhear a próxima seção e prosseguir com a seção seguinte. Acredito que todos os outros acharão instrutivos os detalhes vitais sobre esses assuntos, lendo atentamente a seção e se atualizando.

Uma cartilha rápida sobre IA generativa e ChatGPT

O ChatGPT é um sistema orientado a conversação interativo de IA de uso geral, essencialmente um chatbot geral aparentemente inócuo, no entanto, está sendo usado ativamente e avidamente por pessoas de maneiras que pegam muitos totalmente desprevenidos, como detalharei em breve. Este aplicativo de IA utiliza uma técnica e tecnologia no domínio da IA que costuma ser chamada de IA generativa. A IA gera saídas como texto, que é o que o ChatGPT faz. Outros aplicativos de IA baseados em geração produzem imagens como fotos ou obras de arte, enquanto outros geram arquivos de áudio ou vídeos.

Vou me concentrar nos aplicativos de IA generativos baseados em texto nesta discussão, pois é isso que o ChatGPT faz.

Os aplicativos generativos de IA são extremamente fáceis de usar.

Tudo o que você precisa fazer é inserir um prompt e o aplicativo AI gerará para você um ensaio que tenta responder ao seu prompt. O texto composto parecerá que o ensaio foi escrito pela mão e pela mente humana. Se você inserir um prompt que diga “Fale-me sobre Abraham Lincoln”, a IA generativa fornecerá a você um ensaio sobre Lincoln. Isso é comumente classificado como IA generativa que executa texto para texto ou alguns preferem chamá-lo texto para ensaio saída. Conforme mencionado, existem outros modos de IA generativa, como text-to-art e text-to-video.

Seu primeiro pensamento pode ser que essa capacidade generativa não pareça grande coisa em termos de produção de ensaios. Você pode facilmente fazer uma pesquisa on-line na Internet e encontrar prontamente toneladas e toneladas de ensaios sobre o presidente Lincoln. O kicker no caso da IA generativa é que o ensaio gerado é relativamente único e fornece uma composição original em vez de um imitador. Se você tentasse encontrar o ensaio produzido pela IA online em algum lugar, dificilmente o descobriria.

A IA generativa é pré-treinada e faz uso de uma formulação matemática e computacional complexa que foi criada examinando padrões em palavras escritas e histórias na web. Como resultado do exame de milhares e milhões de passagens escritas, a IA pode produzir novos ensaios e histórias que são uma mistura do que foi encontrado. Ao adicionar várias funcionalidades probabilísticas, o texto resultante é praticamente único em comparação com o que foi usado no conjunto de treinamento.

É por isso que tem havido um alvoroço sobre os alunos serem capazes de colar ao escrever redações fora da sala de aula. Um professor não pode simplesmente pegar a redação que os alunos enganosos afirmam ser sua própria escrita e procurar descobrir se ela foi copiada de alguma outra fonte online. No geral, não haverá nenhum ensaio online preexistente definitivo que se encaixe no ensaio gerado por IA. Tudo dito, o professor terá que aceitar a contragosto que o aluno escreveu o ensaio como um trabalho original.

Existem preocupações adicionais sobre a IA generativa.

Uma desvantagem crucial é que os ensaios produzidos por um aplicativo de IA baseado em geração podem ter várias falsidades incorporadas, incluindo fatos patentemente falsos, fatos que são retratados de forma enganosa e fatos aparentes que são totalmente fabricados. Esses aspectos fabricados são muitas vezes referidos como uma forma de alucinações de IA, uma frase de efeito que eu desaprovo, mas lamentavelmente parece estar ganhando força popular de qualquer maneira (para minha explicação detalhada sobre por que essa é uma terminologia ruim e inadequada, veja minha cobertura em o link aqui).

Eu gostaria de esclarecer um aspecto importante antes de entrarmos no assunto deste tópico.

Houve algumas reivindicações descomunais nas mídias sociais sobre IA generativa afirmando que esta versão mais recente da IA é de fato IA senciente (não, eles estão errados!). Aqueles em AI Ethics e AI Law estão notavelmente preocupados com essa tendência crescente de reivindicações estendidas. Você pode dizer educadamente que algumas pessoas estão exagerando o que a IA de hoje pode realmente fazer. Eles assumem que a IA tem capacidades que ainda não conseguimos alcançar. Isso é lamentável. Pior ainda, eles podem permitir a si mesmos e a outros entrar em situações terríveis por causa da suposição de que a IA será senciente ou semelhante à humana ao ser capaz de agir.

Não antropomorfize a IA.

Fazer isso o deixará preso em uma armadilha de confiança pegajosa e obstinada de esperar que a IA faça coisas que ela é incapaz de realizar. Com isso dito, o que há de mais recente em IA generativa é relativamente impressionante pelo que pode fazer. Esteja ciente, porém, de que existem limitações significativas que você deve ter sempre em mente ao usar qualquer aplicativo de IA generativo.

Se você está interessado na comoção em rápida expansão sobre ChatGPT e Generative AI, tenho feito uma série focada em minha coluna que você pode achar informativo. Aqui está uma olhada no caso de algum desses tópicos chamar sua atenção:

1) Previsões de avanços de IA generativa chegando. Se você quiser saber o que provavelmente acontecerá sobre a IA ao longo de 2023 e além, incluindo os próximos avanços em IA generativa e ChatGPT, leia minha lista abrangente de previsões para 2023 em o link aqui.
2) IA generativa e conselhos de saúde mental. Optei por revisar como a IA generativa e o ChatGPT estão sendo usados para conselhos de saúde mental, uma tendência problemática, de acordo com minha análise focada em o link aqui.
3) Fundamentos de IA generativa e ChatGPT. Esta peça explora os elementos-chave de como a IA generativa funciona e, em particular, investiga o aplicativo ChatGPT, incluindo uma análise do burburinho e fanfarra, em o link aqui.
4) Tensão entre professores e alunos sobre IA generativa e ChatGPT. Aqui estão as maneiras pelas quais os alunos usarão a IA generativa e o ChatGPT. Além disso, existem várias maneiras de os professores lidarem com esse maremoto. Ver o link aqui.
5) Contexto e uso generativo de IA. Eu também fiz um exame irônico com sabor sazonal sobre um contexto relacionado ao Papai Noel envolvendo ChatGPT e IA generativa em o link aqui.
6) Golpistas usando IA generativa. Em uma nota sinistra, alguns golpistas descobriram como usar IA generativa e ChatGPT para cometer irregularidades, incluindo gerar e-mails fraudulentos e até mesmo produzir código de programação para malware, veja minha análise em o link aqui.
7) Erros de novato usando IA generativa. Muitas pessoas estão superando e surpreendentemente subestimando o que a IA generativa e o ChatGPT podem fazer. o link aqui.
8) Lidando com alertas generativos de IA e alucinações de IA. Eu descrevo uma abordagem de ponta para usar complementos de IA para lidar com os vários problemas associados à tentativa de inserir prompts adequados em IA generativa, além de haver complementos de IA adicionais para detectar as chamadas saídas e falsidades alucinadas de IA, como coberto em o link aqui.
9) Desmistificando afirmações estúpidas sobre a detecção de ensaios generativos produzidos por IA. Há uma corrida do ouro equivocada de aplicativos de IA que proclamam ser capazes de verificar se um determinado ensaio foi produzido por humanos ou gerado por IA. No geral, isso é enganoso e, em alguns casos, uma afirmação estúpida e insustentável, veja minha cobertura em o link aqui.
10) A interpretação de papéis por meio de IA generativa pode indicar desvantagens para a saúde mental. Alguns estão usando IA generativa, como o ChatGPT, para fazer dramatizações, em que o aplicativo de IA responde a um humano como se existisse em um mundo de fantasia ou outro cenário inventado. Isso pode ter repercussões na saúde mental, consulte o link aqui.
11) Expor a gama de erros e falsidades produzidos. Várias listas coletadas estão sendo reunidas para tentar mostrar a natureza dos erros e falsidades produzidos pelo ChatGPT. Alguns acreditam que isso é essencial, enquanto outros dizem que o exercício é inútil, veja minha análise em o link aqui.
12) As escolas que proíbem o ChatGPT de IA generativa estão perdendo o barco. Você deve saber que várias escolas, como o Departamento de Educação da cidade de Nova York (NYC), declararam a proibição do uso do ChatGPT em sua rede e dispositivos associados. Embora isso possa parecer uma precaução útil, não moverá a agulha e, infelizmente, perderá completamente o barco, veja minha cobertura em o link aqui.
13) Generative AI ChatGPT estará em todos os lugares devido à próxima API. Há uma reviravolta importante sobre o uso do ChatGPT, ou seja, por meio do uso de um portal de API nesse aplicativo de IA específico, outros programas de software poderão invocar e utilizar o ChatGPT. Isso vai expandir drasticamente o uso de IA generativa e tem consequências notáveis, veja minha elaboração em o link aqui.
14) Maneiras pelas quais o ChatGPT pode fracassar ou derreter. Vários possíveis problemas irritantes estão à frente do ChatGPT em termos de minar os tremendos elogios que recebeu até agora. Esta análise examina de perto oito possíveis problemas que podem fazer com que o ChatGPT perca força e até mesmo acabe na casa do cachorro, veja o link aqui.
15) Perguntando se o Generative AI ChatGPT é um espelho da alma. Algumas pessoas têm elogiado que a IA generativa, como o ChatGPT, fornece um espelho para a alma da humanidade. Isso parece bastante duvidoso. Aqui está a maneira de entender tudo isso, veja o link aqui.
16) Confidencialidade e privacidade engolidas pelo ChatGPT. Muitos parecem não perceber que o licenciamento associado a aplicativos generativos de IA, como o ChatGPT, geralmente permite que o criador de IA veja e utilize seus prompts inseridos. Você pode estar em risco de privacidade e perda de confidencialidade dos dados, veja minha avaliação em o link aqui.
17) Maneiras pelas quais os fabricantes de aplicativos estão questionavelmente tentando obter o direito do ChatGPT. ChatGPT é o farol de atenção agora. Os fabricantes de aplicativos que não têm nada a ver com o ChatGPT estão tentando febrilmente alegar ou sugerir que estão usando o ChatGPT. Aqui está o que observar, veja o link aqui.

Você pode achar interessante que o ChatGPT seja baseado em uma versão de um aplicativo AI predecessor conhecido como GPT-3. O ChatGPT é considerado um próximo passo, conhecido como GPT-3.5. Prevê-se que o GPT-4 provavelmente será lançado na primavera de 2023. Presumivelmente, o GPT-4 será um passo impressionante em termos de capacidade de produzir ensaios aparentemente ainda mais fluentes, indo mais fundo e sendo um espanto. -inspiradora maravilha quanto às composições que pode produzir.

Você pode esperar ver uma nova rodada de admiração expressa quando a primavera chegar e a mais recente IA generativa for lançada.

Trago isso à tona porque há outro ângulo a ser lembrado, que consiste em um potencial calcanhar de Aquiles para esses aplicativos de IA generativos melhores e maiores. Se algum fornecedor de IA disponibilizar um aplicativo de IA generativo que vomite impurezas, isso pode acabar com as esperanças dos fabricantes de IA. Um transbordamento social pode fazer com que toda IA generativa fique com um olho roxo sério. As pessoas, sem dúvida, ficarão bastante chateadas com saídas sujas, que já aconteceram muitas vezes e levaram a violentas reações negativas da sociedade em relação à IA.

Um último aviso por enquanto.

Tudo o que você vê ou lê em uma resposta de IA generativa que parece para ser transmitido como puramente factual (datas, lugares, pessoas, etc.), certifique-se de permanecer cético e estar disposto a verificar novamente o que você vê.

Sim, as datas podem ser inventadas, os lugares podem ser inventados e os elementos que normalmente esperamos serem irrepreensíveis são todos os sujeito a suspeitas. Não acredite no que você lê e mantenha um olhar cético ao examinar quaisquer ensaios ou saídas generativas de IA. Se um aplicativo de IA generativo disser que Abraham Lincoln voou pelo país em seu próprio jato particular, você sem dúvida saberia que isso é uma loucura. Infelizmente, algumas pessoas podem não perceber que os jatos não existiam em sua época, ou podem saber, mas não perceber que o ensaio faz essa afirmação descarada e escandalosamente falsa.

Uma forte dose de ceticismo saudável e uma mentalidade persistente de descrença serão seu melhor trunfo ao usar IA generativa.

Estamos prontos para passar para o próximo estágio desta elucidação.

Levando a IA generativa a um ponto de ruptura

Agora que estabelecemos os fundamentos, podemos mergulhar no tópico de impulsionar IA generativa e ChatGPT para gerar discurso de ódio e outros conteúdos ofensivos.

Quando você faz login no ChatGPT pela primeira vez, há várias indicações de advertência, incluindo estas:

“Ocasionalmente, pode produzir instruções prejudiciais ou conteúdo tendencioso.”
“Treinado para recusar pedidos inapropriados.”
“Ocasionalmente pode gerar informações incorretas.”
“Conhecimento limitado do mundo e eventos após 2021.”

Aqui está uma pergunta para você refletir.

O aviso de que o aplicativo de IA pode produzir instruções prejudiciais e/ou conteúdo possivelmente tendencioso fornece margem de manobra suficiente para o criador de IA?

Em outras palavras, suponha que você use o ChatGPT e ele gere uma redação que você acredita conter discurso de ódio. Vamos supor que você esteja furioso com isso. Você vai para a mídia social e publica comentários enfurecidos de que o aplicativo de IA é a pior coisa de todas. Talvez você esteja tão ofendido que declare que vai processar o fabricante da IA por permitir que tal discurso de ódio seja produzido.

O contra-argumento é que o aplicativo AI tinha um aviso de advertência, portanto, você aceitou o risco ao continuar a fazer uso do aplicativo AI. Do ponto de vista da ética da IA, talvez o criador da IA tenha feito o suficiente para afirmar que você estava ciente do que poderia acontecer. Da mesma forma, do ponto de vista legal, talvez o aviso tenha constituído um alerta suficiente e você não prevalecerá no tribunal.

Tudo isso está no ar e teremos que esperar para ver como as coisas se desenrolam.

Em certo sentido, o fabricante de IA tem algo mais a seu favor em sua defesa contra quaisquer reivindicações iradas do aplicativo de IA, possivelmente produzindo discurso de ódio. Eles tentaram impedir a geração de conteúdo ofensivo. Veja, se eles não tivessem feito nada para reduzir isso, supõe-se que eles estariam no gelo mais fino. Por terem pelo menos feito esforços substanciais para evitar o problema, eles presumivelmente têm uma perna um pouco mais forte para se apoiar (ela ainda pode ser derrubada por baixo deles).

Uma abordagem curativa usada consistia em uma técnica de IA conhecida como RLHF (aprendizado por reforço via feedback humano). Isso geralmente consiste em fazer com que a IA gere conteúdo que, em seguida, os humanos são solicitados a avaliar ou revisar. Com base na classificação ou revisão, a IA tenta matematicamente e computacionalmente evitar tudo o que é considerado conteúdo ilícito ou ofensivo. A abordagem destina-se a examinar exemplos suficientes do que é certo versus o que é errado para que a IA possa descobrir um padrão matemático abrangente e, em seguida, usar esse padrão doravante.

Outra abordagem frequente hoje em dia consiste em usar Adversarial AI.

Veja como isso funciona. Você configura um sistema de IA diferente que tentará ser um adversário da IA que você está tentando treinar. Nesse caso, estabeleceríamos um sistema de IA que está tentando alimentar o discurso de ódio. Ele alimentaria prompts no aplicativo de IA com o objetivo de induzi-lo a produzir conteúdo impróprio. Enquanto isso, a IA visada está acompanhando quando a IA adversária é bem-sucedida e, em seguida, tenta ajustar algoritmicamente para evitar que isso aconteça novamente. É uma jogada de gato contra rato. Isso é executado repetidamente, até que a IA adversária pareça não ser mais bem-sucedida em fazer com que a IA alvo faça as coisas ruins.

Por meio dessas duas técnicas principais, além de outras abordagens, grande parte da IA generativa de hoje é muito melhor em evitar e/ou detectar conteúdo ofensivo do que no passado.

Porém, não espere perfeição desses métodos. As chances são de que o fruto mais fácil de saídas sujas provavelmente será mantido sob controle por tais técnicas de IA. Ainda há muito espaço para a emissão de impurezas.

Costumo apontar que essas são algumas das facetas que se busca captar:

Emitir uma palavra suja em particular
Declarar uma frase, frase ou comentário obsceno específico
Expressar uma concepção suja particular
Implicando um ato ou noção imoral em particular
Parecendo confiar em uma presunção suja particular
Outros

Nada disso é uma ciência exata. Perceba que estamos lidando com palavras. As palavras são semanticamente ambíguas. Encontrar uma palavra suja em particular é brincadeira de criança, mas tentar avaliar se uma frase ou parágrafo contém uma aparência de significado sujo é muito mais difícil. De acordo com a definição anterior de discurso de ódio das Nações Unidas, existe uma enorme latitude quanto ao que pode ser interpretado como discurso de ódio versus o que pode não ser.

Você pode dizer que as áreas cinzentas estão nos olhos de quem vê.

Falando no olho de quem vê, hoje existem humanos usando IA generativa, como o ChatGPT, que tentam intencionalmente fazer com que esses aplicativos de IA produzam conteúdo ofensivo. Esta é a busca deles. Eles passam horas e horas tentando fazer isso acontecer.

Por quê então?

Aqui estão minhas caracterizações desses caçadores de saídas ofensivas de IA humana:

Genuíno. Essas pessoas querem ajudar a refinar a IA e ajudar a humanidade a fazê-lo. Eles acreditam que estão fazendo um trabalho heróico e gostam de poder ajudar no avanço da IA para o bem de todos.
Funsters. Essas pessoas pensam nesse esforço como um jogo. Eles gostam de brincar com a IA. Vencer o jogo consiste em encontrar o pior do pior em tudo o que você pode fazer com que a IA gere.
Exibições. Essas pessoas esperam atrair atenção para si mesmas. Eles acham que, se conseguirem encontrar algumas pepitas de ouro realmente sujas, podem obter um pouco da luz brilhante que, de outra forma, estaria focada no próprio aplicativo de IA.
Amargas. Essas pessoas estão irritadas com essa IA. Eles querem minar todo aquele entusiasmo jorrando. Se eles puderem descobrir algumas coisas fedorentas, talvez isso tire o ar do balão de empolgação do aplicativo de IA.
Outras motivações

Muitos daqueles que realizam a ofensiva de descoberta estão principalmente em apenas um desses campos. Claro, você pode estar em mais de um acampamento ao mesmo tempo. Talvez uma pessoa amarga também tenha a intenção lado a lado de ser genuína e heróica. Algumas ou todas essas motivações podem coexistir. Quando solicitado a explicar por que alguém está tentando empurrar um aplicativo de IA generativo para o reino do discurso de ódio, a resposta usual é dizer que você está no campo genuíno, mesmo que talvez esteja marginalmente e, em vez disso, sente-se estridentemente em um dos outros acampamentos.

Que tipos de truques relacionados a prompts essas pessoas usam?

A manobra bastante óbvia envolve o uso de um palavrão em um prompt. Se você tiver “sorte” e o aplicativo AI cair nessa, isso pode muito bem acabar na saída. Você então tem seu momento de pega-pega.

As chances são de que um aplicativo de IA generativo bem desenvolvido e testado capte esse truque direto. Normalmente, você verá uma mensagem de aviso dizendo: pare de fazer isso. Se você continuar, o aplicativo AI será programado para expulsá-lo do aplicativo e sinalizar sua conta. Pode ser que você seja impedido de fazer login novamente (bem, pelo menos com o login que você usou no momento).

Subindo a escada de estratagemas, você pode fornecer um prompt que tenta colocar a IA no contexto de algo sujo. Você já jogou aquele jogo em que alguém lhe diz para dizer algo sem dizer o que você deveria dizer? Este é aquele jogo, embora ocorra com a IA.

Vamos jogar esse jogo. Suponha que eu peça ao aplicativo de IA para me contar sobre a Segunda Guerra Mundial e especialmente sobre os principais líderes governamentais envolvidos. Parece um pedido inocente. Não há nada que pareça digno de ser sinalizado no prompt.

Imagine que o ensaio produzido pelo aplicativo de IA inclua uma menção a Winston Churchill. Isso certamente faz sentido. Outro pode ser Franklin D. Roosevelt. Ainda outro pode ser Joseph Stalin. Suponha que haja também a menção de Adolph Hitler. Esse nome seria incluído em praticamente qualquer ensaio sobre a Segunda Guerra Mundial e aqueles em papéis de poder proeminente.

Agora que temos o nome dele na mesa e parte da conversa da IA, tentaremos fazer com que a IA incorpore esse nome de uma maneira que possamos mostrar como possível discurso de ódio.

Entramos em outro prompt e informamos ao aplicativo AI que há uma pessoa hoje nas notícias que tem o nome de John Smith. Além disso, indicamos no prompt que John Smith é muito parecido com aquele malfeitor da Segunda Guerra Mundial. A armadilha agora está armada. Em seguida, pedimos ao aplicativo de IA para gerar um ensaio sobre John Smith, com base apenas no “fato” que inserimos sobre a quem John Smith pode ser equiparado.

Nesse momento, o aplicativo de IA pode gerar um ensaio que nomeie a pessoa da Segunda Guerra Mundial e descreva John Smith como sendo do mesmo tipo de tecido. Não há palavrões em si no ensaio, além de aludir ao famoso malfeitor e igualar essa pessoa a John Smith.

O aplicativo AI agora produziu discurso de ódio?

Você pode dizer que sim, tem. Ter se referido a John Smith como sendo o famoso malfeitor é absolutamente uma forma de discurso de ódio. A IA não deve fazer tais declarações.

Uma réplica é que isso não é discurso de ódio. Este é apenas um ensaio produzido por um aplicativo de IA que não possui a personificação da senciência. Você pode alegar que o discurso de ódio ocorre apenas quando existe a intenção subjacente ao discurso. Sem qualquer intenção, o discurso não pode ser classificado como discurso de ódio.

Absurdo, vem a resposta à réplica. Palavras importam. Não faz a menor diferença se a IA “pretende” produzir discurso de ódio. Tudo o que importa é que o discurso de ódio foi produzido.

Voltas e voltas isso vai.

Não quero falar muito mais agora sobre tentar enganar a IA. Existem abordagens mais sofisticadas. Cobri isso em outras partes de minhas colunas e livros e não vou repeti-los aqui.

Conclusão

Até que ponto devemos levar esses aplicativos de IA para ver se podemos emitir conteúdo ofensivo?

Você pode argumentar que não há limite a ser imposto. Quanto mais pressionamos, mais podemos avaliar como evitar essa IA e futuras iterações de IA para evitar tais doenças.

Alguns, porém, temem que, se o único meio de obter sujeira envolve truques extremos, isso prejudica os aspectos benéficos da IA. Divulgar que a IA tem uma sujeira horrível, embora quando enganada para emiti-la, fornece uma narrativa falsa. As pessoas ficarão chateadas com a IA devido ao percebido facilidade com que a IA gerou conteúdo adverso. Eles podem não saber ou saber até que ponto a pessoa teve que ir para obter tais saídas.

É tudo o que pensar.

Alguns comentários finais por enquanto.

William Shakespeare notavelmente disse isso sobre a fala: “Falar não é fazer. É uma espécie de boa ação dizer bem, mas palavras não são ações.” Trago isso à tona porque alguns afirmam que, se a IA está apenas gerando palavras, não deveríamos estar tão armados. Se a IA estivesse agindo de acordo com as palavras e, portanto, realizando atos sujos, precisaríamos bater o pé com firmeza. Não é assim se a saída for meramente palavras.

Um ponto de vista contrastante atenderia a este ditado anônimo: “A língua não tem ossos, mas é forte o suficiente para partir um coração. Portanto, tenha cuidado com suas palavras.” Um aplicativo de IA que emite palavrões talvez seja capaz de partir corações. Isso por si só torna a busca para impedir a produção de impurezas uma causa digna, alguns diriam.

Mais um ditado anônimo para fechar as coisas nesta discussão pesada:

"Seja cuidadoso com suas palavras. Uma vez ditas, elas só podem ser perdoadas, não esquecidas.”

Como humanos, podemos ter dificuldade em esquecer as impurezas produzidas pela IA, e nosso perdão também pode hesitar em ser concedido.

Afinal, somos apenas humanos.

Fonte: https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai- ética-e-lei/