Juízo Final legal para o ChatGPT de IA generativa Se for pego plagiando ou infringindo, adverte a ética da IA ​​e a lei da IA

Dê crédito a quem o crédito é devido.

Isso é um pouco de sabedoria sábia na qual você talvez tenha sido criado para acreditar firmemente. De fato, supõe-se ou imagina-se que todos nós podemos concordar razoavelmente que esta é uma regra prática justa e sensata na vida. Quando alguém fizer algo que mereça reconhecimento, certifique-se de que ele receba o reconhecimento merecido.

O ponto de vista contrário pareceria muito menos convincente.

Se alguém andasse por aí insistindo que o crédito deveria não ser reconhecido quando o crédito é devido, bem, você pode afirmar que tal crença é indelicada e possivelmente dissimulada. Freqüentemente nos sentimos perturbados quando o crédito é roubado de alguém que realizou algo notável. Ouso dizer que desfavorecemos especialmente quando outros assumem falsamente o crédito pelo trabalho de outros. Isso é um golpe duplo inquietante. À pessoa que deveria ter recebido o crédito é negado seu momento ao sol. Além disso, o trapaceiro está saboreando os holofotes, embora eles erroneamente estejam nos enganando para nos apropriarmos indevidamente de nossas afeições favoráveis.

Por que todo esse discurso sobre obter crédito da maneira mais correta e evitar as maneiras erradas e desprezíveis?

Porque parece que estamos enfrentando uma situação semelhante quando se trata do que há de mais recente em Inteligência Artificial (IA).

Sim, as alegações são de que isso está acontecendo comprovadamente por meio de um tipo de IA conhecido como IA generativa. Há muita preocupação de que a IA generativa, a IA mais quente nas notícias atualmente, já tenha recebido o crédito pelo que não merece. E isso provavelmente piorará à medida que a IA generativa for cada vez mais expandida e utilizada. Cada vez mais crédito é atribuído à IA generativa, enquanto, infelizmente, aqueles que merecem o verdadeiro crédito são deixados comendo poeira.

Minha maneira oferecida de denotar claramente esse suposto fenômeno é por meio de duas frases de efeito:

  • 1) Plágio em escala
  • 2) Violação de direitos autorais em escala

Presumo que você esteja ciente da IA ​​generativa devido a um aplicativo de IA amplamente popular conhecido como ChatGPT, lançado em novembro pela OpenAI. Falarei mais sobre IA generativa e ChatGPT momentaneamente. Mantenha-se firme.

Vamos direto ao cerne do que está deixando as pessoas confusas, por assim dizer.

Alguns reclamam veementemente que a IA generativa está potencialmente roubando humanos que criaram conteúdo. Veja bem, a maioria dos aplicativos de IA generativos são dados treinados pelo exame de dados encontrados na Internet. Com base nesses dados, os algoritmos podem aprimorar uma vasta rede interna de correspondência de padrões dentro do aplicativo de IA que pode subsequentemente produzir conteúdo aparentemente novo que parece ter sido criado por mão humana, em vez de uma peça de automação.

Esse feito notável se deve em grande parte ao uso de conteúdo digitalizado na Internet. Sem o volume e a riqueza do conteúdo da Internet como fonte de treinamento de dados, a IA generativa estaria praticamente vazia e teria pouco ou nenhum interesse para ser usada. Ao fazer com que a IA examine milhões e milhões de documentos e textos on-line, juntamente com todos os tipos de conteúdo associado, a correspondência de padrões é gradualmente derivada para tentar imitar o conteúdo produzido por humanos.

Quanto mais conteúdo examinado, as chances são de que a correspondência de padrões seja mais aprimorada e melhore ainda mais no mimetismo, tudo o mais sendo igual.

Aqui, então, está a pergunta de zilhões de dólares:

  • Grande Pergunta: Se você ou outras pessoas tiverem conteúdo na Internet no qual algum aplicativo de IA generativo foi treinado, presumivelmente sem sua permissão direta e talvez totalmente sem sua consciência, você deve ter direito a um pedaço do bolo quanto a qualquer valor que surja de aquele treinamento generativo de dados de IA?

Alguns veementemente argumentam que a única resposta adequada é Sim, notavelmente que esses criadores de conteúdo humano realmente merecem sua parte da ação. O problema é que seria difícil encontrar alguém que recebesse sua parte justa e, pior ainda, quase ninguém recebeu qualquer parte. Os criadores de conteúdo da Internet que contribuíram involuntária e inconscientemente estão sendo negados seus créditos legítimos.

Isso pode ser caracterizado como atroz e ultrajante. Acabamos de desvendar a sábia sabedoria de que o crédito deve ser dado onde o crédito é devido. No caso da IA ​​generativa, aparentemente não. A antiga e virtuosa regra prática sobre o crédito parece ter sido insensivelmente violada.

Uau, a resposta continua, você está exagerando e distorcendo completamente a situação. Claro, a IA generativa examinou o conteúdo na Internet. Claro, isso foi muito útil como parte do treinamento de dados da IA ​​generativa. Reconhecidamente, os impressionantes aplicativos de IA generativa hoje não seriam tão impressionantes sem essa abordagem considerada. Mas você foi longe demais ao dizer que os criadores de conteúdo devem receber qualquer aparência particular de crédito.

A lógica é a seguinte. Os seres humanos vão para a Internet e aprendem coisas da Internet, fazendo-o rotineiramente e sem qualquer problema em si. Uma pessoa que lê blogs sobre encanamento e depois assiste a vídeos de conserto de encanamento disponíveis gratuitamente pode no dia seguinte sair e trabalhar como encanador. Eles precisam dar uma parte de sua remessa relacionada ao encanamento para o blogueiro que escreveu sobre como encanar uma pia? Eles precisam pagar uma taxa ao vlogger que fez o vídeo mostrando as etapas para consertar uma banheira com vazamento?

Quase certamente não.

O treinamento de dados da IA ​​generativa é apenas um meio de desenvolver padrões. Desde que os resultados da IA ​​generativa não sejam mera regurgitação do que foi examinado, você pode argumentar persuasivamente que eles “aprenderam” e, portanto, não estão sujeitos a conceder nenhum crédito específico a nenhuma fonte específica. A menos que você consiga pegar a IA generativa realizando uma regurgitação exata, as indicações são de que a IA se generalizou além de qualquer fonte específica.

Nenhum crédito é devido a ninguém. Ou, supõe-se, você poderia dizer que o crédito vai para todos. O texto coletivo e outros conteúdos da humanidade que se encontram na Internet recebem o crédito. Todos nós recebemos o crédito. Tentar identificar o crédito de uma fonte específica não faz sentido. Fique feliz porque a IA está sendo avançada e que a humanidade como um todo se beneficiará. Essas postagens na Internet devem se sentir honradas por terem contribuído para um futuro de avanços na IA e como isso ajudará a humanidade por toda a eternidade.

Terei mais a dizer sobre essas duas visões contrastantes.

Enquanto isso, você se inclina para o campo que diz que o crédito é devido e atrasado para aqueles que têm sites na Internet, ou você acha que o lado oposto que diz que os criadores de conteúdo da Internet são decididamente não sendo roubado é uma postura mais convincente?

Um enigma e uma charada juntos.

Vamos desempacotar isso.

Na coluna de hoje, abordarei essas preocupações expressas de que a IA generativa está essencialmente plagiando ou possivelmente infringindo os direitos autorais do conteúdo que foi postado na Internet (considerado um direito de propriedade intelectual ou questão de propriedade intelectual). Veremos a base para esses escrúpulos. Estarei me referindo ocasionalmente ao ChatGPT durante esta discussão, pois é o gorila de 600 libras da IA ​​generativa, embora tenha em mente que existem muitos outros aplicativos de IA generativa e geralmente são baseados nos mesmos princípios gerais.

Enquanto isso, você pode estar se perguntando o que de fato é a IA generativa.

Vamos primeiro cobrir os fundamentos da IA ​​generativa e, em seguida, podemos dar uma olhada no assunto urgente em questão.

Em tudo isso, há uma série de considerações sobre a ética da IA ​​e a lei da IA.

Esteja ciente de que há esforços contínuos para imbuir os princípios éticos da IA ​​no desenvolvimento e no uso de aplicativos de IA. Um contingente crescente de preocupados e antigos éticos da IA ​​está tentando garantir que os esforços para conceber e adotar a IA levem em consideração uma visão de fazer AI For Good e evitando AI para mau. Da mesma forma, há propostas de novas leis de IA que estão sendo cogitadas como possíveis soluções para impedir que os empreendimentos de IA enlouqueçam com os direitos humanos e coisas do gênero. Para minha cobertura contínua e extensa de Ética e Lei de IA, consulte o link aqui e o link aqui, Apenas para nomear alguns.

O desenvolvimento e a promulgação dos preceitos de IA ética estão sendo buscados para evitar que a sociedade caia em uma miríade de armadilhas indutoras de IA. Para minha cobertura dos princípios de Ética da IA ​​da ONU, elaborados e apoiados por quase 200 países por meio dos esforços da UNESCO, consulte o link aqui. Na mesma linha, novas leis de IA estão sendo exploradas para tentar manter a IA em equilíbrio. Uma das últimas tomadas consiste em um conjunto de Declaração de Direitos da IA que a Casa Branca dos EUA divulgou recentemente para identificar os direitos humanos na era da IA, consulte o link aqui. É preciso uma aldeia para manter a IA e os desenvolvedores de IA no caminho correto e impedir os esforços dissimulados propositais ou acidentais que podem minar a sociedade.

Estarei entrelaçando as considerações relacionadas à ética da IA ​​e à lei da IA ​​nesta discussão.

Fundamentos da IA ​​generativa

A instância mais conhecida de IA generativa é representada por um aplicativo de IA chamado ChatGPT. O ChatGPT surgiu na consciência pública em novembro, quando foi lançado pela empresa de pesquisa de IA OpenAI. Desde então, o ChatGPT conquistou manchetes enormes e surpreendentemente excedeu seus quinze minutos de fama.

Suponho que você provavelmente já ouviu falar do ChatGPT ou talvez até conheça alguém que o tenha usado.

O ChatGPT é considerado um aplicativo de IA generativo porque recebe como entrada algum texto de um usuário e, em seguida, gera ou produz uma saída que consiste em um ensaio. A IA é um gerador de texto para texto, embora eu descreva a IA como sendo um gerador de texto para ensaio, pois isso esclarece mais prontamente para o que é comumente usado. Você pode usar IA generativa para compor composições longas ou fazer comentários concisos bastante curtos. Tudo depende de você.

Tudo o que você precisa fazer é inserir um prompt e o aplicativo AI gerará para você um ensaio que tenta responder ao seu prompt. O texto composto parecerá que o ensaio foi escrito pela mão e pela mente humana. Se você inserir um prompt que diga “Fale-me sobre Abraham Lincoln”, a IA generativa fornecerá a você um ensaio sobre Lincoln. Existem outros modos de IA generativa, como text-to-art e text-to-video. Vou me concentrar aqui na variação de texto para texto.

Seu primeiro pensamento pode ser que essa capacidade generativa não pareça grande coisa em termos de produção de ensaios. Você pode facilmente fazer uma pesquisa on-line na Internet e encontrar prontamente toneladas e toneladas de ensaios sobre o presidente Lincoln. O kicker no caso da IA ​​generativa é que o ensaio gerado é relativamente único e fornece uma composição original em vez de um imitador. Se você tentasse encontrar o ensaio produzido pela IA online em algum lugar, dificilmente o descobriria.

A IA generativa é pré-treinada e faz uso de uma formulação matemática e computacional complexa que foi criada examinando padrões em palavras escritas e histórias na web. Como resultado do exame de milhares e milhões de passagens escritas, a IA pode produzir novos ensaios e histórias que são uma mistura do que foi encontrado. Ao adicionar várias funcionalidades probabilísticas, o texto resultante é praticamente único em comparação com o que foi usado no conjunto de treinamento.

Existem inúmeras preocupações sobre IA generativa.

Uma desvantagem crucial é que os ensaios produzidos por um aplicativo de IA baseado em geração podem conter várias falsidades incorporadas, incluindo fatos manifestamente falsos, fatos que são retratados de forma enganosa e fatos aparentes totalmente fabricados. Esses aspectos fabricados são muitas vezes referidos como uma forma de alucinações de IA, uma frase de efeito que eu desaprovo, mas lamentavelmente parece estar ganhando força popular de qualquer maneira (para minha explicação detalhada sobre por que essa é uma terminologia ruim e inadequada, veja minha cobertura em o link aqui).

Outra preocupação é que os humanos podem facilmente assumir o crédito por um ensaio generativo produzido por IA, apesar de não terem escrito o ensaio por conta própria. Você deve ter ouvido falar que professores e escolas estão bastante preocupados com o surgimento de aplicativos generativos de IA. Os alunos podem usar a IA generativa para escrever suas redações atribuídas. Se um aluno afirma que um ensaio foi escrito por sua própria mão, há poucas chances de o professor ser capaz de discernir se ele foi forjado por IA generativa. Para minha análise dessa faceta que confunde alunos e professores, veja minha cobertura em o link aqui e o link aqui.

Houve algumas reivindicações descomunais nas mídias sociais sobre IA generativa afirmando que esta versão mais recente da IA ​​é de fato IA senciente (não, eles estão errados!). Aqueles em AI Ethics e AI Law estão notavelmente preocupados com essa tendência crescente de reivindicações estendidas. Você pode dizer educadamente que algumas pessoas estão exagerando o que a IA de hoje pode realmente fazer. Eles assumem que a IA tem capacidades que ainda não conseguimos alcançar. Isso é lamentável. Pior ainda, eles podem permitir a si mesmos e a outros entrar em situações terríveis por causa da suposição de que a IA será senciente ou semelhante à humana ao ser capaz de agir.

Não antropomorfize a IA.

Fazer isso o deixará preso em uma armadilha de confiança pegajosa e obstinada de esperar que a IA faça coisas que ela é incapaz de realizar. Com isso dito, o que há de mais recente em IA generativa é relativamente impressionante pelo que pode fazer. Esteja ciente, porém, de que existem limitações significativas que você deve ter sempre em mente ao usar qualquer aplicativo de IA generativo.

Um último aviso por enquanto.

Tudo o que você vê ou lê em uma resposta de IA generativa que parece para ser transmitido como puramente factual (datas, lugares, pessoas, etc.), certifique-se de permanecer cético e estar disposto a verificar novamente o que você vê.

Sim, as datas podem ser inventadas, os lugares podem ser inventados e os elementos que normalmente esperamos serem irrepreensíveis são todos os sujeito a suspeitas. Não acredite no que você lê e mantenha um olhar cético ao examinar quaisquer ensaios ou saídas generativas de IA. Se um aplicativo de IA generativo disser que Abraham Lincoln voou pelo país em seu jato particular, você sem dúvida saberia que isso é uma loucura. Infelizmente, algumas pessoas podem não perceber que os jatos não existiam em sua época, ou podem saber, mas não perceber que o ensaio faz essa afirmação descarada e escandalosamente falsa.

Uma forte dose de ceticismo saudável e uma mentalidade persistente de descrença serão seu melhor trunfo ao usar IA generativa.

Estamos prontos para passar para o próximo estágio desta elucidação.

A Internet e a IA generativa estão juntas nisso

Agora que você tem uma aparência do que é IA generativa, podemos explorar a questão incômoda de saber se a IA generativa é justa ou injusta “alavancando”, ou alguns diriam descaradamente explorando Conteúdo da Internet.

Aqui estão meus quatro tópicos vitais pertinentes a este assunto:

  • 1) Problema duplo: plágio e violação de direitos autorais
  • 2) Tentar provar plágio ou violação de direitos autorais será uma tentativa
  • 3) Defendendo o caso de plágio ou violação de direitos autorais
  • 4) Minas terrestres legais aguardam

Abordarei cada um desses tópicos importantes e apresentarei considerações perspicazes sobre as quais todos devemos refletir atentamente. Cada um desses tópicos é parte integrante de um quebra-cabeça maior. Você não pode olhar para apenas uma peça. Nem você pode olhar para qualquer peça isoladamente das outras peças.

Este é um mosaico intrincado e todo o quebra-cabeça deve receber a devida consideração harmoniosa.

Problema duplo: plágio e violação de direitos autorais

O duplo problema enfrentado por aqueles que fabricam e colocam em campo IA generativa é que seus produtos podem estar fazendo duas coisas ruins:

  • 1) Plágio. A IA generativa pode ser interpretada como plagiar conteúdo que existe na Internet de acordo com a varredura da Internet que ocorreu durante o treinamento de dados da IA.
  • 2) Violação de direitos autorais. A IA generativa pode ser reivindicada como empresa violação de direitos autorais associado ao conteúdo da Internet que foi verificado durante o treinamento de dados.

Para esclarecer, há muito mais conteúdo na Internet do que normalmente é verificado para o treinamento de dados da IA ​​generativa. Normalmente, apenas uma pequena fração da Internet é empregada. Assim, presumivelmente podemos presumir que qualquer conteúdo que não foi escaneado durante o treinamento de dados não tem nenhum problema específico com a IA generativa.

Isso é um tanto discutível, já que você poderia desenhar uma linha que conecta outro conteúdo que foi verificado com o conteúdo que não foi verificado. Além disso, outra condição importante é que, mesmo que haja conteúdo que não foi digitalizado, ainda pode ser argumentado como plagiado e/ou violação de direitos autorais se as saídas da IA ​​generativa por acaso chegarem ao mesmo palavreado. O que quero dizer é que há muita fragilidade nisso tudo.

Bottom line: A IA generativa está repleta de possíveis dilemas jurídicos da Ética da IA ​​e da Lei da IA ​​quando se trata de plágio e violação de direitos autorais sustentando as práticas de treinamento de dados predominantes.

Até agora, os fabricantes de IA e os pesquisadores de IA passaram por isso praticamente impunes, apesar da espada iminente e precariamente pendurada acima deles. Apenas algumas ações judiciais foram iniciadas até o momento contra essas práticas. Você pode ter ouvido ou visto artigos de notícias sobre tais ações legais. Um deles, por exemplo, envolve as empresas de conversão de texto em imagem da Midjourney e Stability AI por violação de conteúdo artístico publicado na Internet. Outro envolve violação de texto para código contra GitHub, Microsoft e OpenAI devido ao software Copilot que produz aplicativos de IA. A Getty Images também pretende ir atrás da Stability AI por violação de texto para imagem.

Você pode antecipar que mais processos desse tipo serão arquivados.

No momento, é um pouco arriscado iniciar esses processos, já que o resultado é relativamente desconhecido. O tribunal ficará do lado dos criadores de IA ou aqueles que acreditam que seu conteúdo foi explorado injustamente serão os vencedores? Uma batalha legal cara é sempre um assunto sério. Despesas com os custos legais em grande escala devem ser pesadas contra as chances de ganhar ou perder.

Os fabricantes de IA parecem não ter escolha a não ser lutar. Se eles cedessem, mesmo que um pouco, as chances são de que uma torrente de processos adicionais resultaria (essencialmente, abrindo a porta para maiores chances de outros prevalecerem também). Uma vez que haja sangue legal na água, os tubarões legais restantes correrão para o considerado “pontuação fácil” e um banho de sangue monetário violento certamente ocorrerá.

Alguns acreditam que devemos aprovar novas leis de IA que protejam os fabricantes de IA. A proteção pode até ser retroativa. A base para isso é que, se quisermos ver avanços geradores de IA, temos que dar aos fabricantes de IA uma pista de zona segura. Assim que os processos judiciais começarem a obter vitórias contra os fabricantes de IA, se isso ocorrer (ainda não sabemos), a preocupação é que a IA generativa evapore, pois ninguém estará disposto a apoiar as empresas de IA.

Conforme habilmente apontado em um recente artigo da Bloomberg Law intitulado “ChatGPT: IP, Cybersecurity & Other Legal Risks of Generative AI” pelo Dr. Ilia Kolochenko e Gordon Platt, Bloomberg Law, fevereiro de 2023, aqui estão dois trechos vitais que ecoam esses pontos de vista:

  • “Há um debate acalorado entre acadêmicos jurídicos e professores de direito de propriedade intelectual dos EUA sobre se a extração não autorizada e o uso subsequente de dados protegidos por direitos autorais representam uma violação de direitos autorais. Se prevalecer a visão dos advogados que veem violações de direitos autorais em tal prática, os usuários de tais sistemas de IA também podem ser responsabilizados por infrações secundárias e potencialmente enfrentar ramificações legais”.
  • “Para enfrentar o desafio de forma abrangente, os legisladores devem considerar não apenas modernizar a legislação de direitos autorais existente, mas também implementar um conjunto de leis e regulamentos específicos para IA.”

Lembre-se de que, como sociedade, implementamos proteções legais para o expansão da Internet, como testemunhado agora pela Suprema Corte revisando a famosa ou infame Seção 230. Assim, parece razoável e precedente que possamos estar dispostos a fazer algumas proteções semelhantes para o avanço da IA ​​generativa. Talvez as proteções possam ser configuradas temporariamente, expirando após a IA generativa atingir algum nível predeterminado de proficiência. Outras disposições de salvaguarda poderiam ser concebidas.

Em breve estarei postando minha análise de como a avaliação da Suprema Corte e a decisão final sobre a Seção 230 podem impactar o advento da IA ​​generativa. Esteja atento à próxima postagem!

De volta à opinião estridente de que devemos dar espaço para a inovação tecnológica inspiradora da sociedade conhecida como IA generativa. Alguns diriam que, mesmo que a alegada violação de direitos autorais tenha ocorrido ou esteja ocorrendo, a sociedade como um todo deveria estar disposta a permitir isso para fins específicos de avanço da IA ​​generativa.

A esperança é que as novas leis de IA sejam cuidadosamente elaboradas e ajustadas às particularidades associadas ao treinamento de dados para IA generativa.

Existem muitos contra-argumentos a essa noção de criar novas leis de IA para esse fim. Uma preocupação é que qualquer nova lei de IA abra as comportas para todos os tipos de violação de direitos autorais. Lamentaremos o dia em que permitimos que essas novas leis de IA caíssem nos livros. Não importa o quanto você tente limitar isso apenas ao treinamento de dados de IA, outros encontrarão de forma sorrateira ou inteligente brechas que resultarão em violação desenfreada e desenfreada de direitos autorais.

Voltas e voltas os argumentos vão.

Um argumento que não se sustenta particularmente tem a ver com a tentativa de processar a própria IA. Observe que tenho me referido ao fabricante de IA ou aos pesquisadores de IA como as partes interessadas culpadas. São pessoas e empresas. Alguns sugerem que devemos apontar a AI como a parte a ser processada. Eu discuti longamente em minha coluna que ainda não atribuímos personalidade jurídica à IA, veja o link aqui por exemplo, e assim tais ações judiciais voltadas para a IA per se seriam consideradas sem sentido agora.

Como um adendo à questão de quem ou o que deve ser processado, isso traz outro tópico suculento.

Suponha que um aplicativo específico de IA generativa seja desenvolvido por algum fabricante de IA que chamaremos de Widget Company. A Widget Company é relativamente pequena em tamanho e não tem muitas receitas, nem muitos ativos. Processá-los provavelmente não vai angariar as grandes riquezas que alguém pode estar procurando. No máximo, você teria apenas a satisfação de corrigir o que considera errado.

Você quer ir atrás do peixe grande.

Veja como isso vai surgir. Um fabricante de IA opta por disponibilizar sua IA generativa para a Big Time Company, um grande conglomerado com toneladas de massa e toneladas de ativos. Uma ação judicial nomeando a Widget Company teria agora um alvo melhor em vista, ou seja, também nomeando a Big Time Company. Esta é uma luta de Davi e Golias que os advogados apreciariam. Claro, a Big Time Company, sem dúvida, tentará escapar do anzol. Se eles podem fazer isso é mais uma vez uma questão legal incerta, e eles podem ficar irremediavelmente atolados na lama.

Antes de avançarmos mais nisso, gostaria de colocar algo crucial sobre a mesa sobre as invasões contestadas da IA ​​generativa devido ao treinamento de dados. Tenho certeza de que você percebeu intuitivamente que o plágio e a violação de direitos autorais são dois animais um tanto diferentes. Eles têm muito em comum, embora também sejam significativamente diferentes.

Aqui está uma descrição sucinta da Duke University que explica os dois:

  • “Plágio é melhor definido como o uso não reconhecido do trabalho de outra pessoa. É uma questão ética envolvendo a reivindicação de crédito por um trabalho que o reclamante não criou. Pode-se plagiar o trabalho de outra pessoa, independentemente do status de direitos autorais desse trabalho. Por exemplo, não deixa de ser plágio copiar de um livro ou artigo muito antigo para ainda estar protegido por direitos autorais. Também é plágio usar dados obtidos de uma fonte não reconhecida, mesmo que materiais factuais como dados possam não estar protegidos por direitos autorais. Plágio, no entanto, é facilmente curado – citação adequada à fonte original do material.”
  • “A violação de direitos autorais, por outro lado, é o uso não autorizado do trabalho de outra pessoa. Esta é uma questão legal que depende se o trabalho é ou não protegido por direitos autorais em primeiro lugar, bem como em detalhes como quanto é usado e a finalidade do uso. Se alguém copia muito de um trabalho protegido, ou copia para um propósito não autorizado, simplesmente indicar a fonte original não resolverá o problema. Somente buscando permissão prévia do detentor dos direitos autorais é que se evita o risco de uma acusação de infração.”

Destaco a importância dessas duas preocupações para que você perceba que os remédios podem diferir de acordo. Além disso, ambos estão enredados em considerações que permeiam a Ética e a Lei da IA, tornando-os igualmente valiosos para examinar.

Vamos explorar um remédio ou solução reivindicada. Você verá que isso pode ajudar em um dos problemas duplos, mas não no outro.

Alguns insistiram que tudo o que os fabricantes de IA precisam fazer é citar suas fontes. Quando a IA generativa produzir um ensaio, inclua apenas citações específicas para o que for declarado no ensaio. Forneça vários URLs e outras indicações de qual conteúdo da Internet foi usado. Isso parece deixá-los livres de escrúpulos em relação ao plágio. O ensaio produzido presumivelmente identificaria claramente quais fontes foram usadas para o texto que está sendo produzido.

Existem alguns problemas nessa solução reivindicada, mas em um nível de 30,000 pés, digamos que sirva como uma cura semi-satisfatória para o dilema do plágio. Conforme declarado acima na explicação da violação de direitos autorais, a citação do material de origem não o tira necessariamente da casinha do cachorro. Assumindo que o conteúdo foi protegido por direitos autorais e dependendo de outros fatores, como quanto do material foi usado, a espada que aguarda a violação de direitos autorais pode cair drasticamente e com finalidade.

Problema duplo é a palavra de ordem aqui.

Tentar provar plágio ou violação de direitos autorais será uma tentativa

Prove!

Esse é o refrão bem usado que todos nós já ouvimos em vários momentos de nossas vidas.

Você sabe como é. Você pode alegar que algo está acontecendo ou aconteceu. Você deve saber no fundo do seu coração que isso aconteceu. Mas quando se trata de push-versus-shove, você precisa ter a prova.

Na linguagem de hoje, você precisa mostrar o recibos, como eles dizem.

Minha pergunta para você é esta: Como vamos provar de forma demonstrável que a IA generativa explorou de forma inadequada o conteúdo da Internet?

Supõe-se que a resposta seja fácil. Você pede ou diz à IA generativa para produzir um ensaio finalizado. Você então pega o ensaio e o compara com o que pode ser encontrado na Internet. Se você encontrar o ensaio, bam, você tem a IA generativa pregada na parede proverbial.

A vida parece nunca ser tão fácil.

Imagine que obtemos IA generativa para produzir um ensaio que contenha cerca de 100 palavras. Damos a volta e tentamos chegar a todos os cantos da Internet, procurando por essas 100 palavras. Se encontrarmos as 100 palavras, mostradas na mesma ordem exata e de maneira idêntica, parece que pegamos uma palavra quente.

Suponha, porém, que encontramos na Internet um ensaio aparentemente “comparável”, embora corresponda apenas a 80 das 100 palavras. Isso ainda parece suficiente, talvez. Mas imagine que encontramos apenas uma instância de 10 palavras das 100 que correspondem. Isso é suficiente para afirmar que ocorreu plágio ou violação de direitos autorais?

O cinza existe.

O texto é engraçado dessa maneira.

Compare isso com as circunstâncias de texto para imagem ou texto para arte. Quando a IA generativa fornece um recurso de conversão de texto em imagem ou texto em arte, você insere um prompt de texto e o aplicativo AI produz uma imagem com base no prompt que você forneceu. A imagem pode ser diferente de qualquer imagem já vista neste ou em qualquer outro planeta.

Por outro lado, a imagem pode ser uma reminiscência de outras imagens que existem. Podemos olhar para a imagem generativa produzida por IA e, de certa forma, por instinto, dizer que ela se parece com alguma outra imagem que vimos antes. Geralmente, o visual aspectos de comparação e contraste são um pouco mais prontamente realizados. Dito isso, saiba que enormes debates legais asseguram o que constitui a sobreposição ou replicação de uma imagem a partir de outra.

Outra situação semelhante existe com a música. Existem aplicativos generativos de IA que permitem inserir um prompt de texto e a saída produzida pela IA é uma música de áudio. Esses recursos de IA de texto para áudio ou texto para música estão apenas começando a surgir. Uma coisa em que você pode apostar é que a música produzida pela IA generativa será altamente examinada quanto à infração. Parece que sabemos quando ouvimos uma violação musical, embora, novamente, essa seja uma questão legal complexa que não se baseia apenas em como nos sentimos sobre a reprodução percebida.

Permita-me mais um exemplo.

A IA generativa de texto para código fornece a capacidade de inserir um prompt de texto e a IA produzirá o código de programação para você. Você pode usar esse código para preparar um programa de computador. Você pode usar o código exatamente como gerado ou pode optar por editar e ajustar o código para atender às suas necessidades. Há também a necessidade de garantir que o código esteja apto e funcional, pois é possível que surjam erros e falsidades no código gerado.

Sua primeira suposição pode ser que o código de programação não é diferente do texto. É apenas texto. Claro, é um texto que fornece um propósito específico, mas ainda é um texto.

Bem, não exatamente. A maioria das linguagens de programação possui um formato e uma estrutura rígidos para a natureza das instruções de codificação dessa linguagem. Em certo sentido, isso é muito mais restrito do que a linguagem natural de fluxo livre. Você está um pouco encaixotado sobre como as declarações de codificação são formuladas. Da mesma forma, a sequência e a maneira como as instruções são utilizadas e arranjadas são um pouco encaixotadas.

Em suma, a possibilidade de mostrar que o código de programação foi plagiado ou infringido é quase mais fácil do que a linguagem natural. Assim, quando uma IA generativa vai escanear o código de programação na Internet e depois gera o código de programação, as chances de argumentar que o código foi replicado descaradamente serão relativamente mais convincentes. Não é um slam dunk, então espere que batalhas amargas sejam travadas sobre isso.

Meu ponto principal é que teremos as mesmas questões de Ética e Lei de IA confrontando todos os modos de IA generativa.

Plágio e violação de direitos autorais serão problemáticos para:

  • Texto para texto ou texto para ensaio
  • Texto para imagem ou texto para arte
  • Texto para áudio ou texto para música
  • Texto para vídeo
  • Texto para código
  • Etc.

Todos estão sujeitos às mesmas preocupações. Alguns podem ser um pouco mais fáceis de “provar” do que outros. Todos eles terão sua própria variedade de pesadelos de uma base de ética e lei de IA.

Defendendo o caso de plágio ou violação de direitos autorais

Para fins de discussão, vamos nos concentrar na IA generativa de texto para texto ou texto para ensaio. Faço isso em parte por causa da enorme popularidade do ChatGPT, que é o tipo de IA generativa de texto para texto. Há muitas pessoas usando o ChatGPT, junto com muitas outras usando vários aplicativos semelhantes de IA geradora de texto para texto.

As pessoas que estão usando aplicativos de IA generativos sabem que estão potencialmente contando com plágio ou violação de direitos autorais?

Parece duvidoso que o façam.

Eu ousaria dizer que a suposição predominante é que, se o aplicativo de IA generativa estiver disponível para uso, o fabricante de IA ou a empresa que a colocou em campo deve saber ou ter certeza de que não há nada de inconveniente nos produtos que estão oferecendo para uso. Se você pode usá-lo, deve ser honesto.

Vamos revisitar meu comentário anterior sobre como vamos tentar provar que uma determinada IA ​​generativa está trabalhando de forma errada quanto ao treinamento de dados.

Também devo acrescentar que, se conseguirmos pegar uma IA generativa fazendo isso, as chances de capturar as outras provavelmente aumentarão. Não estou dizendo que todos os aplicativos generativos de IA estariam no mesmo barco. Mas eles vão se encontrar em mares bastante difíceis, uma vez que um deles é preso à parede.

Por isso também valerá imensamente a pena ficar de olho nos processos existentes. O primeiro que vencer a alegada infração, se isso ocorrer, possivelmente trará desgraça e melancolia para os outros aplicativos generativos de IA, a menos que alguma estreiteza escape das questões mais amplas em questão. Os que perdem quanto à infração alegada não significam necessariamente que os aplicativos generativos de IA podem tocar sinos e comemorar. Pode ser que a perda seja atribuída a outros fatores que não são tão relevantes para os outros aplicativos generativos de IA e assim por diante.

Eu mencionei que, se pegarmos uma redação de 100 palavras e tentarmos encontrar essas palavras exatas na mesma sequência na Internet, podemos ter um caso relativamente sólido de plágio ou violação de direitos autorais, tudo o mais sendo igual. Mas se o número de palavras correspondentes for baixo, parece que estamos no gelo fino.

Eu gostaria de me aprofundar nisso.

Um aspecto óbvio de fazer uma comparação consiste em exatamente as mesmas palavras na mesma sequência. Isso pode ocorrer em passagens inteiras. Isso seria conveniente de detectar, quase como se fosse entregue a nós em uma bandeja de prata.

Também podemos suspeitar se apenas um trecho de palavras corresponder. A ideia seria ver se são palavras cruciais ou talvez palavras de preenchimento que podemos remover ou ignorar prontamente. Também não queremos ser enganados pelo uso de palavras em seu passado ou futuro, ou outra tolice. Essas variações nas palavras também devem ser consideradas.

Outro nível de comparação seria quando as palavras não são exatamente as mesmas palavras em grande parte, mas as palavras, mesmo em um estado variado, ainda parecem estar apresentando os mesmos pontos. Por exemplo, um resumo geralmente usa palavras bastante semelhantes como fonte original, mas podemos discernir que o resumo parece baseado na fonte original.

O nível mais difícil de comparação seria baseado em conceitos ou ideias. Suponha que vemos uma redação que não tem palavras iguais ou semelhantes como base de comparação, mas a essência ou as ideias são as mesmas. Estamos admitidamente entrando em território difícil. Se disséssemos prontamente que as ideias são protegidas de perto, colocaríamos uma tampa em quase todas as formas de conhecimento e ampliação do conhecimento.

Podemos mais uma vez nos referir a uma explicação útil da Duke University:

  • “Os direitos autorais não protegem ideias, apenas a expressão específica de uma ideia. Por exemplo, um tribunal decidiu que Dan Brown não violou os direitos autorais de um livro anterior quando escreveu O Código Da Vinci porque tudo o que ele emprestou do trabalho anterior foram as ideias básicas, não as especificidades do enredo ou do diálogo. Uma vez que os direitos autorais visam incentivar a produção criativa, usar as ideias de outra pessoa para criar um trabalho novo e original mantém o propósito dos direitos autorais, mas não os viola. Somente se alguém copiar a expressão de outro sem permissão é que os direitos autorais podem ser infringidos.”
  • “Para evitar o plágio, por outro lado, deve-se reconhecer a fonte mesmo de ideias que são emprestadas de outra pessoa, independentemente de a expressão dessas ideias ser emprestada com elas. Assim, uma paráfrase requer citação, mesmo que raramente levante qualquer problema de direitos autorais.”

Observe como identificado anteriormente as diferenças entre as facetas do problema duplo.

Pois bem, colocar em prática as abordagens comparativas é algo que vem ocorrendo há muitos anos. Pense desta maneira. Os alunos que escrevem redações para seus trabalhos escolares podem ficar tentados a pegar o conteúdo da Internet e fingir que são os autores das palavras vencedoras do Prêmio Pulitzer.

Os professores usam programas de verificação de plágio há muito tempo para lidar com isso. Um professor pega a redação de um aluno e a insere no verificador de plágio. Em alguns casos, uma escola inteira licenciará o uso de um programa de verificação de plágio. Sempre que os alunos estiverem entregando uma redação, eles devem primeiro enviar a redação para o programa de verificação de plágio. O professor é informado sobre o que o programa relata.

Infelizmente, você deve ser extremamente cauteloso sobre o que esses programas de verificação de plágio têm a dizer. É importante avaliar cuidadosamente se as indicações relatadas são válidas. Como já mencionado, a capacidade de verificar se uma obra foi copiada pode ser nebulosa. Se você aceitar impensadamente o resultado do programa de verificação, poderá acusar falsamente um aluno de copiar quando ele não o fez. Isso pode esmagar a alma.

Seguindo em frente, podemos tentar usar programas de verificação de plágio no campo de teste de saídas generativas de IA. Trate os ensaios produzidos por um aplicativo de IA generativo como se tivessem sido escritos por um aluno. Em seguida, avaliamos o que o verificador de plágio diz. Isso é feito com um grão de sal.

Há um estudo de pesquisa recente que tentou operacionalizar esses tipos de comparações no contexto da IA ​​generativa dessa mesma maneira. Eu gostaria de repassar algumas descobertas interessantes com você.

Primeiro, é necessário adicionar algum histórico. A IA generativa às vezes é chamada de LLMs (grandes modelos de linguagem) ou simplesmente LMs (modelos de linguagem). Em segundo lugar, o ChatGPT é baseado em uma versão de outro pacote de IA generativa OpenAI chamado GPT-3.5. Antes do GPT-3.5, havia o GPT-3 e, antes disso, o GPT-2. Hoje em dia, o GPT-2 é considerado bastante primitivo em comparação com as séries posteriores, e estamos todos aguardando ansiosamente o próximo lançamento do GPT-4, veja minha discussão em o link aqui.

O estudo de pesquisa que quero explorar brevemente consistiu em examinar o GPT-2. Isso é importante perceber, pois agora estamos além das capacidades do GPT-2. Não tire conclusões precipitadas quanto aos resultados desta análise de GPT-2. No entanto, podemos aprender muito com a avaliação do GPT-2. O estudo é intitulado “Do Language Models Plagiarize?” por Jooyoung Lee, Thai Le, Jinghui Chen e Dongwon Lee, aparecendo no ACM WWW '23, 1 a 5 de maio de 2023, Austin, TX, EUA.

Esta é a sua principal questão de pesquisa:

  • “Até que ponto (não limitado à memorização) os LMs exploram frases ou sentenças de suas amostras de treinamento?”

Eles usaram esses três níveis ou categorias de plágio potencial:

  • “Plágio literal: cópias exatas de palavras ou frases sem transformação.”
  • “Plágio de paráfrase: substituição de sinônimos, reordenação de palavras e/ou retrotradução.”
  • “Plágio de ideia: representação do conteúdo principal de forma alongada.”

O GPT-2 foi realmente treinado em dados da Internet e, portanto, um candidato adequado para esse tipo de análise:

  • “O GPT-2 é pré-treinado no WebText, contendo mais de 8 milhões de documentos recuperados de 45 milhões de links do Reddit. Como a OpenAI não lançou publicamente o WebText, usamos o OpenWebText, que é uma recriação de código aberto do corpus WebText. Tem sido usado de forma confiável pela literatura anterior.”

As principais descobertas seletivas extraídas do estudo consistem em:

  • “Descobrimos que famílias GPT-2 pré-treinadas plagiam do OpenWebText.”
  • “Nossas descobertas mostram que o ajuste fino reduz significativamente os casos de plágio literal do OpenWebText.”
  • “Consistente com Carlini et al. e Carlini et al., descobrimos que modelos GPT-2 maiores (large e xl) geralmente geram sequências plagiadas com mais frequência do que os menores.”
  • “No entanto, diferentes LMs podem demonstrar diferentes padrões de plágio e, portanto, nossos resultados podem não generalizar diretamente para outros LMs, incluindo LMs mais recentes, como GPT-3 ou BLOOM.”
  • “Além disso, os detectores automáticos de plágio são conhecidos por terem muitos modos de falha (tanto em falsos negativos quanto em falsos positivos).
  • “Dado que a maioria dos dados de treinamento dos LMs é extraída da Web sem informar os proprietários do conteúdo, sua reiteração de palavras, frases e até ideias centrais de conjuntos de treinamento em textos gerados tem implicações éticas.”

Definitivamente, precisamos de muito mais estudos desse tipo.

Se você está curioso sobre como o GPT-2 se compara ao GPT-3 em relação ao treinamento de dados, há um contraste bastante marcante.

De acordo com as indicações relatadas, o treinamento de dados para GPT-3 foi muito mais extenso:

  • “O modelo foi treinado usando bancos de dados de texto da internet. Isso incluiu incríveis 570 GB de dados obtidos de livros, textos da web, Wikipedia, artigos e outros textos na internet. Para ser ainda mais exato, 300 bilhões de palavras foram inseridas no sistema” (Foco Científico da BBC revista, “ChatGPT: Tudo o que você precisa saber sobre a ferramenta GPT-3 da OpenAI” por Alex Hughes, fevereiro de 2023).

Para aqueles interessados ​​em descrições mais detalhadas do treinamento de dados para GPT-3, aqui está um trecho do cartão oficial do modelo GPT-3 publicado no GitHub (última data atualizada listada em setembro de 2020):

  • “O conjunto de dados de treinamento GPT-3 é composto de texto postado na internet ou de texto carregado na internet (por exemplo, livros). Os dados da Internet nos quais ele foi treinado e avaliado até o momento incluem: (1) uma versão do conjunto de dados CommonCrawl, filtrada com base na semelhança com corpora de referência de alta qualidade, (2) uma versão expandida do conjunto de dados Webtext, (3 ) dois corpora de livros baseados na Internet e (4) Wikipedia em inglês.”
  • “Devido aos seus dados de treinamento, os resultados e o desempenho do GPT-3 são mais representativos das populações conectadas à Internet do que aquelas imersas na cultura verbal e não digital. A população conectada à Internet é mais representativa de países desenvolvidos, ricos, jovens e com visões masculinas, e é principalmente centrada nos Estados Unidos. Nações mais ricas e populações em países desenvolvidos mostram maior penetração da Internet. A divisão de gênero digital também mostra menos mulheres representadas online em todo o mundo. Além disso, como diferentes partes do mundo têm diferentes níveis de penetração e acesso à Internet, o conjunto de dados representa menos as comunidades menos conectadas”.

Uma conclusão da indicação acima sobre o GPT-3 é que uma regra geral entre aqueles que fazem IA generativa é que quanto mais dados da Internet você puder digitalizar, maiores serão as chances de melhorar ou avançar a IA generativa.

Você pode ver isso de duas maneiras.

  • 1) IA melhorada. Teremos IA generativa que rasteja o máximo possível na Internet. O resultado empolgante é que a IA generativa será melhor do que já é. Isso é algo para se esperar.
  • 2) Copiando muito potencial. Essa ampliação da varredura da Internet está tornando o problema de plágio e violação de direitos autorais cada vez maior de forma desagradável e envolvente. Considerando que antes não havia tantos criadores de conteúdo impactados, o tamanho vai crescer. Se você é um advogado do lado dos criadores de conteúdo, isso traz lágrimas aos seus olhos (talvez lágrimas de consternação ou lágrimas de alegria com as perspectivas que isso traz em termos de ações judiciais).

O copo está meio cheio ou meio vazio?

Você decide.

Minas terrestres legais aguardam

Uma questão sobre a qual você pode estar refletindo é se o conteúdo postado na Internet é considerado um jogo justo para ser verificado. Se o seu conteúdo estiver atrás de um paywall, presumivelmente não é um alvo para ser verificado porque não pode ser facilmente alcançado, dependendo da força do paywall.

Eu acho que a maioria das pessoas comuns não tem seu conteúdo escondido atrás de um acesso pago. Eles querem que seu conteúdo esteja disponível publicamente. Eles assumem que as pessoas vão dar uma olhada nisso.

Ter seu conteúdo disponível publicamente também significa axiomaticamente que você está aprovando que ele seja escaneado para uso por IA generativa que está sendo treinada em dados?

Talvez sim, talvez não.

É uma daquelas questões legais de revirar os olhos.

Voltando ao citado anteriormente Lei Bloomberg artigo, os autores mencionam a importância dos Termos e Condições (T&C) associados a muitos sites:

  • “A mina terrestre legal – amplamente ignorada por empresas de IA involuntárias que operam bots online para coleta de dados – está oculta nos Termos e Condições comumente disponíveis em sites públicos de todos os tipos. Em contraste com a lei de propriedade intelectual atualmente instável e o dilema da violação de direitos autorais, os termos e condições de um site são respaldados por uma lei contratual bem estabelecida e geralmente podem ser aplicados em tribunal com base em um número suficiente de precedentes.”

Eles indicam que, supondo que seu site tenha uma página relacionada a licenciamento, é provável que, se você usou um modelo moderno padronizado, ele contenha uma cláusula crucial:

  • “Consequentemente, a maioria dos termos e condições padronizados para sites – abundantemente disponíveis em acesso gratuito – contém uma cláusula que proíbe a extração automatizada de dados. Ironicamente, esses modelos disponíveis gratuitamente possivelmente foram usados ​​para treinamento ChatGPT. Portanto, os proprietários de conteúdo podem querer revisar seus Termos e Condições e inserir uma cláusula separada proibindo totalmente todo o uso de qualquer conteúdo dos sites para treinamento de IA ou quaisquer fins relacionados, coletados manualmente ou automaticamente, sem uma permissão prévia por escrito do proprietário do site. .”

Um kicker adicionado está incluído em sua análise de possíveis ações para criadores de conteúdo realizarem em seus sites:

  • “Portanto, inserir uma cláusula de indenização aplicável para cada violação da cláusula de não raspagem, aprimorada com uma cláusula de liminar sem fiança, pode ser uma solução sustentável para os autores de conteúdo criativo que não desejam fornecer os frutos de seus trabalho intelectual para fins de treinamento em IA sem ser pago por isso ou, pelo menos, receber o devido crédito por seu trabalho”.

Você pode querer consultar seu advogado sobre isso.

Alguns dizem que esta é uma maneira vital de tentar dizer aos criadores de IA que os criadores de conteúdo levam muito a sério a proteção de seu conteúdo. Certificar-se de que seu licenciamento tenha a redação adequada parece alertar os fabricantes de IA.

Outros, porém, são um pouco pessimistas. Eles dizem desanimados que você pode colocar a linguagem jurídica mais dura e letal em seu site, mas no final, os fabricantes de IA vão escaneá-lo. Você não saberá que eles fizeram isso. Você terá muito trabalho provando que sim. É improvável que você descubra que suas saídas refletem seu conteúdo. É uma batalha difícil que você não vai ganhar.

O contra-argumento é que você está entregando a batalha antes mesmo de ela ser travada. Se você não tiver pelo menos linguagem jurídica suficiente, e se alguma vez os pegar, eles vão se mexer e se esquivar para escapar de qualquer responsabilidade. Tudo porque você não postou o tipo certo de linguagem jurídica.

Enquanto isso, outra abordagem que busca ganhar força consistiria em marca��o seu site com algo que diz que o site não deve ser verificado por IA generativa. A ideia é criar um marcador padronizado. Os sites provavelmente poderiam adicionar o marcador ao seu site. Os fabricantes de IA seriam informados de que deveriam alterar sua varredura de dados para pular os sites marcados.

Uma abordagem de marcador pode ser bem-sucedida? As preocupações incluem os custos para obter e postar os marcadores. Junto com se os fabricantes de IA respeitarão os marcadores e garantirão que evitem escanear os locais marcados. Outra perspectiva é que, mesmo que os fabricantes de IA não concordem com as marcações, isso fornece outra pista reveladora para ir ao tribunal e argumentar que o criador do conteúdo foi a última milha para tentar alertar sobre a digitalização da IA.

Caramba, tudo isso faz sua cabeça girar.

Conclusão

Algumas considerações finais sobre este tema espinhoso.

Você está pronto para uma perspectiva alucinante sobre todo esse dilema de IA como plagiador e infrator de direitos autorais?

Grande parte da suposição sobre “capturar” IA generativa no ato de plágio ou violação de direitos autorais depende da descoberta de saídas que muito parecido trabalhos anteriores, como o conteúdo da Internet que foi potencialmente verificado durante o treinamento de dados.

Suponhamos, porém, que um estratagema de dividir e conquistar esteja em jogo aqui.

Aqui está o que quero dizer.

Se a IA generativa pegar emprestado um pouquinho daqui e um pouquinho dali, misturando-os para produzir qualquer resultado específico, as chances de conseguir um momento pega-pega diminuem tremendamente. Aparentemente, qualquer saída não atingirá um limite suficiente para que você possa dizer com certeza que foi copiada de um item de origem específico. O ensaio resultante ou outros modos de produção serão apenas parcialmente comparáveis. E pela abordagem usual de tentar argumentar que ocorreu plágio ou violação de direitos autorais, você geralmente tem que mostrar mais do que uma pequenina parte está em jogo, especialmente se o pedaço não for um destaque e puder ser encontrado amplamente na Internet (subcotando qualquer ônus adequado de prova de apropriação indébita).

Você ainda pode declarar persuasivamente que o treinamento de dados por IA generativa roubou sites e criadores de conteúdo, mesmo que a prova sugerida seja uma proporção ostensivamente imaterial?

Pense sobre isso.

Se estivermos enfrentando um potencial plágio em escala e violação de direitos autorais em escala, talvez seja necessário alterar nossa abordagem para definir o que constitui plágio e/ou violação de direitos autorais. Talvez haja um caso a ser feito para plágio ou violação de direitos autorais no geral ou em geral. Um mosaico composto por milhares ou milhões de fragmentos minúsculos pode ser interpretado como cometendo tais violações. O problema aparente, porém, é que isso pode fazer com que todo tipo de conteúdo repentinamente fique sob o guarda-chuva de violações. Isso pode ser uma ladeira escorregadia.

Pensamentos pesados.

Falando de pensamentos pesados, Leo Tolstoy, o lendário escritor, declarou: “O único sentido da vida é servir a humanidade.”

Se o seu site e os sites de outras pessoas estão sendo verificados para melhorar a IA, e embora você não esteja ganhando um único centavo por isso, você pode ter consolo solene na crença ardente de que está contribuindo para o futuro da humanidade? Parece um pequeno preço a pagar.

Bem, a menos que a IA acabe sendo o temido risco existencial que apaga todos os humanos da existência. Você não deve levar o crédito por isso. Eu suponho que você preferiria não estar contribuindo para esse terrível resultado. Deixando de lado essa previsão calamitosa, você pode estar pensando que, se os fabricantes de IA estão ganhando dinheiro com sua IA generativa e parecem estar saboreando a especulação, você também deveria ganhar uma fatia do bolo. Compartilhe e compartilhe igualmente. Os fabricantes de IA devem pedir permissão para escanear qualquer site e também negociar um preço a ser pago por terem sido autorizados a realizar o escaneamento.

Dê crédito a quem o crédito é devido.

Vamos dar a última palavra a Sir Walter Scott por enquanto: “Oh, que teia emaranhada nós tecemos. Quando primeiro praticamos para enganar.”

Isso talvez se aplique se você acredita que o engano está acontecendo, ou talvez não se aplique se você acha que tudo está bem, perfeitamente direto e legítimo. Por favor, generosamente dê a si mesmo crédito por pensar sobre isso. Você merece isso.

Fonte: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- e-ai-law/