A Microsoft e a OpenAI, enfrentando alegações de violação de direitos autorais do The New York Times e de outras editoras, argumentaram em um tribunal federal na terça-feira que o uso de artigos de notícias disponíveis publicamente para treinar grandes modelos de linguagem (LLMs) é legal sob o uso justo. doutrina.
O processo , apresentado em dezembro de 2023 e agora consolidado com reivindicações semelhantes do The New York Daily News e do Center for Investigative Reporting, afirma que sistemas de IA como ChatGPT e Microsoft Copilot aproveitaram material protegido por direitos autorais sem autorização, minando as receitas e os direitos de propriedade intelectual dos editores.
Os demandantes afirmam que estes modelos de IA, treinados em conjuntos de dados contendo milhões de artigos, podem reproduzir ou resumir o seu conteúdo de forma a substituir os trabalhos originais. “Trata-se de substituir o conteúdo, não de transformá-lo”, disse Ian Crosby, representando o The New York Times.
Crosby alertou que tais práticas poderiam desviar entre 30% e 50% do tráfego de notícias on-line dos sites dos editores.
Doutrina de uso justo no cerne do caso
A defesa da OpenAI depende do argumento de que o uso de dados de notícias é transformador e, portanto, protegido pela doutrina de uso justo. Gratz, advogado da OpenAI, explicou ao juiz Sidney Stein que o ChatGPT processa dados dividindo-os em unidades menores chamadas tokens, permitindo que o modelo reconheça padrões e gere novo conteúdo em vez de replicar texto diretamente. Gratz, um advogado da OpenAI, disse que regurgitar artigos inteiros “não é o que foi projetado para fazer e nem o que faz” quando se trata de como o ChatGPT opera, argumentando que resultados semelhantes a material protegido por direitos autorais geralmente ocorrem somente após solicitações específicas do usuário, tentando deliberadamente obter tais respostas.
A equipe jurídica da Microsoft apoiou essas alegações, traçando paralelos entre o treinamento em IA e inovações tecnológicas anteriores, como videocassetes e copiadoras, que foram inicialmente contestadas, mas acabaram sendo consideradas legais.
Eles argumentaram que o uso justo permite o desenvolvimento de tecnologias que beneficiam a sociedade sem comprometer os direitos dos criadores de conteúdo. “A lei de direitos autorais não é um obstáculo para o LLM mais do que foi para o videocassete (ou o piano, a copiadora, o computador pessoal, a Internet ou o mecanismo de busca)”, afirmou a empresa em seus documentos judiciais.
Editores reivindicam danos financeiros e éticos
Os editores argumentam que o uso não licenciado de seu conteúdo não apenas viola a lei de direitos autorais, mas também ameaça sua sustentabilidade financeira. O processo destaca exemplos específicos em que. Ferramentas de IA resumem artigos ou fornecer recomendações de produtos que contornem os acessos pagos dos editores
De acordo com o Times, o Bing Chat da Microsoft – agora rebatizado como Copilot – redirecionou leitores em potencial para longe de seu plataforma afiliada Wirecutter, reduzindo o tráfego e a receita.
Steven Lieberman, representando o The New York Daily News, criticou a dependência das empresas de tecnologia nas fontes como Common Crawl, uma organização sem fins lucrativos que agrega dados da web para uso público. Ele descreveu a prática como um “aproveitamento” do trabalho de jornalistas e editores, permitindo que as empresas de IA monetizem conteúdo que não criaram ou licenciaram.
Embora a OpenAI argumente que esta abordagem democratiza o acesso aos dados, os críticos apontam destaca que inclui materiais protegidos por direitos autorais sem a devida verificação
Para agravar o problema está o uso da geração aumentada de recuperação (RAG) pela OpenAI, um método que integra informações em tempo real do. web em respostas geradas por IA Embora essa técnica aumente a relevância e a precisão dos resultados, ela levanta questões sobre como o conteúdo dos editores é acessado e reproduzido.
Apostas altas: potencial destruição de conjuntos de dados e penalidades financeiras.
O processo pede bilhões de dólares em indenização e pede a destruição de conjuntos de dados contendo materiais não autorizados. Tal decisão poderia ter implicações profundas para a OpenAI e a Microsoft, forçando-as a reconstruir seus sistemas de IA usando o uso de IA. apenas conteúdo licenciado ou de domínio público.
A lei federal de direitos autorais permite multas de até US$ 150.000 para cada instância de violação intencional, um número que pode aumentar dramaticamente dado o volume de dados envolvidos.
Ferramenta de gerenciamento de mídia atrasada e respostas do setor
O processo também destaca as frustrações com o atraso no lançamento da ferramenta Media Manager da OpenAI, inicialmente prometida em maio de 2024 para dar aos criadores maior controle sobre como seu conteúdo é usado em conjuntos de dados de treinamento de IA.
Os críticos argumentam que esta falha deixa os pequenos editores e os criadores independentes com opções limitadas para proteger a sua propriedade intelectual.
Embora grandes editoras como TIME, The New Yorker, Vogue, Vanity Fair, Bon Appetit e Wired e mais de 200 outras publicações tenham garantido acordos de licenciamento com a OpenAI, muitos players menores não têm recursos para negociar acordos semelhantes.
A indústria em geral permanece dividida, com algumas empresas adotando parcerias para licenciar conteúdo para desenvolvimento de IA, enquanto outras buscam litígios. No Canadá, uma coalizão de editores entrou com ações judiciais acusando a OpenAI de “scraping generalizado”, e autores proeminentes como Michael Chabon expressaram preocupações semelhantes.
Juiz decidirá sobre moção de demissão
O juiz Sidney Stein, que demonstrou um forte entendimento das questões técnicas durante a audiência, ainda não se pronunciou sobre o pedido de rejeição dos réus
Stein reconheceu a complexidade do caso, afirmando que o uso justo provavelmente desempenharia um papel fundamental em sua decisão. O resultado poderia estabelecer um precedente crítico sobre como os sistemas generativos de IA interagem com materiais protegidos por direitos autorais e as obrigações dos desenvolvedores para com os criadores de conteúdo.
À medida que os procedimentos legais continuam. , as implicações vão muito além da OpenAI e da Microsoft. Este caso tem o potencial de moldar o futuro da IA generativa, equilibrando a inovação com os direitos dos editores e criadores.