Con l’escalation della battaglia sul copyright con il New York Times, OpenAI ha ricevuto l’ordine di consegnare 20 milioni di registri di conversazioni ChatGPT. Un giudice federale ha respinto le argomentazioni dell’azienda in materia di privacy, stabilendo che la necessità di prove supera il rischio per i dati degli utenti.
U.S. Martedì il giudice Ona Wang ha negato la mozione di riconsiderazione di OpenAI, imponendo il trasferimento dei dati entro sette giorni dall’anonimizzazione. La sentenza fornisce al Times argomenti significativi per confutare le affermazioni secondo cui avrebbe manipolato l’intelligenza artificiale per generare contenuti illeciti.
Nonostante gli avvertimenti del capo della sicurezza di OpenAI secondo cui la mossa”rompe con le pratiche di sicurezza di buon senso”, la corte ha ritenuto sufficienti le garanzie interne. L’azienda ha immediatamente presentato ricorso contro la decisione davanti a un giudice distrettuale.
The Ruling: Privacy Shield Pierced
Il giudice Ona Wang ha emesso un rifiuto formale della mozione di OpenAI per riconsiderazione della disputa sulla scoperta. In un parere e un’ordinanza dettagliati di nove pagine, la corte ha esplicitamente respinto l’argomentazione secondo cui le preoccupazioni relative alla privacy degli utenti dovrebbero prevalere sulle esigenze probatorie dei querelanti.
Lungi dall’essere un semplice ostacolo procedurale, l’ordinanza rappresenta un significativo superamento della protezione della”scatola nera”spesso rivendicata dalle aziende tecnologiche riguardo ai dati degli utenti.
Citando lo standard di”proporzionalità”della Federal Rule of Civil Procedure 26, il giudice ha ritenuto che l’enorme volume di dati non costituisse un motivo valido per trattenerlo.
Affrontando l’equilibrio tra riservatezza e scoperta legale, il giudice Wang ha affermato che”La Corte riconosce che le considerazioni sulla privacy degli utenti di OpenAI sono sincere. Tuttavia, tali considerazioni sono solo un fattore nell’analisi di proporzionalità e non possono predominare laddove vi sia una chiara rilevanza e un onere minimo.”
Il ragionamento giudiziario si è basato in gran parte sulla portata relativa della richiesta rispetto all’ampio patrimonio di dati della società. Come dettagliato nella documentazione della corte, il giudice Wang ha osservato:
“L’universo totale dei log di output dei consumatori conservati è nell’ordine delle decine di miliardi. Il campione di 20 milioni qui rappresenta meno dello 0,05% del totale dei log che OpenAI ha conservato nel corso ordinario delle sue attività.”
“Inoltre, l’onere della produzione è minimo a questo punto; OpenAI ha completato (o quasi completato) l’ampio processo di applicazione del suo strumento interno di deidentificazione, che La stessa OpenAI è stata lodata come significativamente più efficace nel rimuovere sia le informazioni di identificazione personale che le informazioni private.”
Magistrate-Judge-Wang-Order OpenAI New York Times 20251202
La conformità richiede il rigoroso rispetto di una sequenza temporale. Respingendo l’idea che la produzione crei un”onere eccessivo”, il giudice ha osservato che OpenAI ha già completato la maggior parte del lavoro tecnico richiesto per disinfettare i dati.
Stabilendo una scadenza fissa, la corte ha stabilito che”OpenAI è tenuta a produrre i 20 milioni di registri ChatGPT entro 7 giorni dal completamento del processo di deidentificazione.”
Tale decisione costituisce un potenziale precedente per il modo in cui i dati degli utenti AI vengono trattati nei contenziosi. Decidendo che gli strumenti interni di deidentificazione sono sufficienti per mitigare i rischi per la privacy, la corte ha segnalato che le società di intelligenza artificiale non possono facilmente utilizzare la”privacy degli utenti”come scudo generale contro la scoperta del copyright.
Stategic Stakes: The’Hacking’Defense
Ottenere questi registri è essenziale per il New York Times per smantellare la difesa principale di OpenAI: l’accusa di”hacking”. In precedenti dichiarazioni, la società di intelligenza artificiale ha affermato che il Times ha utilizzato suggerimenti manipolativi per costringere ChatGPT a rigurgitare articoli protetti da copyright, creando una violazione artificiale anziché esporre un difetto sistemico.
Al centro della causa iniziale sul copyright intentata nel dicembre 2023, questa manovra legale ha affermato che il Times ha utilizzato suggerimenti manipolativi per costringere ChatGPT a rigurgitare articoli protetti da copyright.
Analizzando le query degli utenti”reali”, il Times spera di dimostrare che il modello riproduce spontaneamente il testo protetto da copyright senza suggerimenti contraddittori da parte dei ricercatori. Convalidando questo approccio investigativo, l’ordinanza del tribunale afferma:
“Pertanto, i 20 milioni di registri ChatGPT sono chiaramente rilevanti per le affermazioni sui risultati dei querelanti di News nella misura in cui contengono riproduzioni parziali o integrali delle opere protette da copyright dei querelanti di News e per le difese affermative di OpenAI nella misura in cui contengono altre attività degli utenti, e i querelanti di News hanno diritto a essere informati su entrambi.”
Il team legale di OpenAI aveva ha sostenuto che il 99,99% di questi registri sono irrilevanti per le rivendicazioni sul copyright, una cifra che la corte ha ritenuto non convincente senza prove. I querelanti stanno anche indagando sulla teoria del”Pink Slime”, che suggerisce che l’intelligenza artificiale inonda il mercato con derivati di bassa qualità del giornalismo di alta qualità, diluendo il valore dei reportage originali.
Frank Pine, direttore esecutivo di MediaNews Group, che fa parte della causa consolidata, ha criticato la resistenza dell’azienda alla trasparenza. Sottolineando l’attrito tra le parti, Pine ha osservato che”la leadership di OpenAI aveva le allucinazioni quando pensavano di poter farla franca nascondendo prove su come il loro modello di business si basa sul furto giornalisti laboriosi.”
La scoperta si sta ora spostando dalle argomentazioni teoriche sul”fair use”all’analisi forense concreta del comportamento modello. L’accesso a questi registri consentirà ai querelanti di vedere con quale frequenza agli utenti regolari, non solo agli investigatori del Times, vengono forniti contenuti protetti da copyright.
Il dibattito sulla privacy e le garanzie tecniche
La leadership della sicurezza di OpenAI ha reagito con forza all’ordine, inquadrandolo come un significativo superamento della privacy degli utenti. Sostenendo che anche i dati resi anonimi possono essere reidentificati, l’azienda mette in guardia dai rischi legati a domande personali o stili di scrittura unici.
Dane Stuckey, Chief Information Security Officer di OpenAI, ha criticato pubblicamente la richiesta. Difendendo la posizione dell’azienda, Stuckey ha affermato che”la richiesta del Times per i registri delle chat ignora le tutele della privacy di lunga data e rompe con le pratiche di sicurezza basate sul buon senso.”
Tuttavia, la corte ha rivolto contro di essa il marketing stesso di OpenAI. Il giudice Wang ha citato le precedenti affermazioni dell’azienda sull’efficacia dei suoi strumenti di deidentificazione come motivo per fidarsi del processo.
Ciò fa seguito a un precedente ordine di conservazione di luglio, in cui il tribunale ha costretto OpenAI a conservare tutte le chat cancellate per impedire la distruzione delle prove.
Per mitigare ulteriormente i rischi, i registri saranno soggetti alla designazione”Solo gli occhi degli avvocati”. Questa classificazione legale impedisce teoricamente che i dati vengano divulgati al pubblico, alla stampa o persino ai dirigenti aziendali dei querelanti.
Sottolineando queste garanzie giudiziarie, il giudice Wang ha osservato che”Ci sono più livelli di protezione in questo caso proprio a causa della natura altamente sensibile e privata di gran parte della scoperta.”
Distinguendo questo caso da Nichols v. Noom, un caso precedente in cui la privacy riguarda una scoperta limitata, la sentenza ha osservato che le protezioni disponibili qui giustificavano la divulgazione. Il giudice Wang ha sottolineato che la rilevanza specifica dei log per la difesa del”fair use”ha superato i rischi per la privacy.
La guerra legale più ampia
OpenAI ha immediatamente presentato ricorso contro la sentenza del giudice magistrato al giudice distrettuale Sidney Stein, chiedendo una sospensione. Per ribaltare un simile ordine è necessario soddisfare uno standard elevato; l’azienda deve dimostrare che la sentenza era”chiaramente errata”o contraria alla legge.
Al centro della controversia c’è un disaccordo fondamentale sugli aspetti economici della formazione sull’intelligenza artificiale. Gli interessi finanziari stanno aumentando rapidamente, con il New York Times che riporta oltre 7,6 milioni di dollari di spese legali solo per i primi nove mesi del 2024.
Steven Lieberman, un avvocato del New York Times, ha ribadito l’argomento economico fondamentale alla base del contenzioso. Definendo il caso come una questione di furto piuttosto che di innovazione, Lieberman ha dichiarato a marzo che”Apprezziamo l’opportunità di presentare a una giuria i fatti su come OpenAI e Microsoft stanno traendo enormi profitti dal furto del contenuto originale dei giornali in tutto il paese.”
Rappresentando solo un fronte in un contenzioso multidistrettuale, questa battaglia di scoperta include autori, altri editori e potenziali ricorrenti di azioni collettive. Mentre alcuni editori come il Washington Post hanno optato per partnership sui contenuti, la”coalizione giudiziaria”sta scavando un lungo processo forense.
L’esito di questa specifica controversia potrebbe costringere altre società di intelligenza artificiale, come Google e Anthropic, a prepararsi per divulgazioni simili. Se il Times utilizzasse con successo questi log per dimostrare un rigurgito sistemico, potrebbe minare la difesa del”fair use”che è alla base dell’intero settore dell’intelligenza artificiale generativa.