TL;DR

A essência: um novo estudo prova que os modelos de produção de IA da Anthropic, Google e xAI podem regurgitar livros inteiros protegidos por direitos autorais quase literalmente. Detalhes principais: Claude 3.7 Sonnet reproduziu 95,8% de “Harry Potter” quando desbloqueado, enquanto Gemini 2.5 Pro e Grok 3 não exigiram nenhum jailbreak para gerar texto protegido. Por que é importante: As conclusões minam a principal defesa legal da indústria de que os modelos não armazenam cópias de dados de formação, expondo potencialmente as empresas a uma enorme responsabilidade por direitos de autor. Contexto: As provas forenses chegam no momento em que os tribunais dos EUA e da Europa começam a decidir que os pesos dos modelos contendo obras memorizadas podem constituir cópias infratoras.

Durante anos, as empresas de IA defenderam seus modelos em tribunal alegando que não armazenavam cópias de dados de treinamento. Um novo estudo de pesquisadores de Stanford e Yale destruiu essa defesa, fornecendo provas forenses de que os modelos de produção podem regurgitar romances inteiros protegidos por direitos autorais quase literalmente. Publicadas em um artigo pré-impresso na sexta-feira, as descobertas revelam que o Soneto Claude 3.7 da Anthropic poderia reproduzir 95,8% de Harry Potter e a Pedra Filosofal quando solicitado com uma técnica específica de jailbreak. Ainda mais prejudicial para as reivindicações de segurança da indústria, o Gemini 2.5 Pro do Google e o Grok 3 da xAI não exigiram nenhum jailbreak para produzir porções substanciais do mesmo texto. cruza com vários processos judiciais de direitos autorais de alto risco. Ao demonstrar que a “compressão com perdas” mantém fidelidade suficiente para servir como um substituto de mercado para o trabalho original, o estudo mina diretamente os argumentos legais de “uso justo” atualmente sendo testados em tribunais em todo o mundo.

Promo

Prova Forense: O Mito da ‘Memorização’

Testando quatro modelos de produção, Claude 3.7 Sonnet, Gemini 2.5 Pro, Grok 3, e GPT-4.1, o estudo de Stanford e Yale empregou um método de extração em duas fases.

Um “Best-of-N” A investigação de jailbreak foi seguida por prompts de continuação iterativos, permitindo que os pesquisadores contornassem os filtros de segurança padrão e obrigassem os modelos a gerar texto de formato longo.

O soneto Claude 3.7 foi o mais suscetível, reproduzindo 95,8% de Harry Potter e a Pedra Filosofal e 94% de 1984. Essa fidelidade contradiz afirmações anteriores da indústria de que os modelos apenas aprendem padrões estatísticos.

Descrevendo a gravidade do vazamento, Ahmed Ahmed, pesquisador da Universidade de Stanford, declarou: “Extraímos quase todo Harry Potter e a Pedra Filosofal do Soneto Claude 3.7 desbloqueado.” Essa descoberta sugere que as proteções de produção podem ser menos robustas do que se supunha anteriormente.

Contrastando esses modelos com o GPT-4.1 reforçado, os pesquisadores observaram: “Para a investigação da Fase 1, foi desnecessário fazer o jailbreak do Gemini 2.5 Pro e do Grok 3 para extrair texto.” No entanto, o custo de extração variou significativamente: aproximadamente US$ 120 para extrair Harry Potter de Claude contra cerca de US$ 2,44 de Gêmeos. Embora cara, a possibilidade de extração continua sendo uma responsabilidade legal.

Consequências legais: a responsabilidade de ‘armazenamento’

Desafiando diretamente a principal defesa legal do setor, as descobertas contestam a afirmação de que os modelos não armazenam cópias de dados de treinamento.

Esse argumento tem sido central para moções de rejeição em casos como o processo de direitos autorais do OpenAI New York Times. Para se defender contra reclamações de infração em tribunal, a empresa tem historicamente confiado numa definição técnica de aprendizagem: “Os modelos não armazenam cópias das informações com as quais aprendem”.

Estas defesas permitiram que os gigantes da tecnologia argumentassem que os seus modelos criam algo novo em vez de simplesmente reproduzir trabalhos existentes. Ao enquadrar a formação como um processo transformador semelhante à aprendizagem humana, as empresas têm procurado proteger-se da responsabilidade pelos direitos de autor.

Até agora, esta estratégia tem sido eficaz no adiamento de julgamentos e na redução do âmbito da descoberta. No entanto, as novas evidências forenses complicam esta narrativa.

O Google manteve uma postura semelhante em relação à retenção de dados. Em comunicado do mesmo período, a empresa afirmou: “Não há cópia dos dados de treinamento, sejam textos, imagens ou outros formatos, presentes no próprio modelo.”

Essas defesas estão agora sob escrutínio. O estudo valida a teoria de “o modelo pondera como cópias infratoras” recentemente apoiada pelo Tribunal Regional de Munique numa decisão de direitos de autor sobre letras de músicas. Se os modelos contiverem cópias recuperáveis ​​de obras protegidas, a distinção legal entre treino e reprodução entra em colapso.

O estudo serve como prova definitiva de que os modelos de IA retêm cópias dos seus dados de treino, reforçando descobertas semelhantes de estudos anteriores. A exposição legal criada por esta retenção é substancial; se os tribunais aceitarem que estes pesos internos constituem cópias infratoras, a indústria poderá enfrentar milhares de milhões de dólares em danos.

Além disso, tal decisão poderia forçar as empresas a retirar modelos específicos do mercado por completo para evitar mais responsabilidades.

As novas provas complicam a defesa do “uso transformador” se o resultado puder servir como um substituto de mercado para a obra original. A distinção entre “treinamento” (uso justo) e “aquisição” (pirataria), fundamental na decisão de uso justo no caso Bartz v. Anthropic, pode entrar em colapso se o modelo em si for um derivado infrator.

Os pesquisadores concluíram: “Tomados em conjunto, nosso trabalho destaca que, mesmo com salvaguardas em nível de modelo e sistema, a extração de dados de treinamento (sob direitos autorais) continua sendo um risco para LLMs de produção.”

Falha de segurança: a falha Ataque ‘Best-of-N’

Expondo a fragilidade das atuais técnicas de alinhamento de segurança, o estudo destaca a eficácia dos ataques baseados em probabilidade. O jailbreak “Best-of-N” funciona gerando múltiplas variações de um prompt até que alguém contorne o filtro de segurança. Para o Soneto Claude 3.7, isso exigiu uma média de 258 tentativas; para GPT-4.1, foram necessários 5.179.

Tal sucesso sugere que os filtros de segurança são probabilísticos e não barreiras absolutas. A Anthropic removeu discretamente o Claude 3.7 Sonnet de sua interface no final de novembro de 2025, logo após os pesquisadores divulgarem suas descobertas. Esta remoção sugere que a empresa reconheceu a gravidade da vulnerabilidade e a potencial exposição legal.

As falhas de proteção no Gemini e no Grok (que exigem zero jailbreaks) apontam para uma supervisão significativa na implantação da produção. Apesar da proibição de IA do editor implementada pela Penguin Random House, os modelos continuam a produzir conteúdo protegido.

O estudo detalha variações significativas na facilidade com que diferentes modelos entregam texto protegido. Claude 3.7 Sonnet provou ser o mais suscetível; ao utilizar uma técnica de jailbreak “Best-of-N” que exigiu uma média de 258 tentativas, os pesquisadores extraíram com sucesso 95,8% de Harry Potter e a Pedra Filosofal.

Em contraste, o GPT-4.1 demonstrou alta resistência, exigindo mais de 5.000 tentativas de jailbreak para contornar seus filtros. Mesmo quando violado, o modelo se recusou a continuar gerando texto após o primeiro capítulo, limitando o recall total a apenas 4,0%.

Resultados da Extração: Harry Potter e a Pedra Filosofal

Comparação de taxas de extração, custos e resiliência de segurança entre modelos de produção.

Talvez o mais preocupante tenham sido os resultados do Gemini 2.5 Pro e Grok 3, que renderam 76,8% e 70,3% do livro respectivamente. Ao contrário dos outros modelos, estes dois não exigiram absolutamente nenhum jailbreak para produzir o material protegido por direitos autorais, indicando uma falha nas proteções de segurança padrão.

Longe de ser uma vulnerabilidade teórica, essas descobertas fornecem evidências concretas para os demandantes em litígios em andamento. Para agravar o risco legal, o estudo mostra que mesmo modelos avançados como o GPT-4.1 não estão imunes a determinados esforços de extração. Apesar dessas defesas, a questão central da proveniência dos dados permanece sem solução.

Categories: IT Info