Microsoft e OpenAI, di fronte alle accuse di violazione del copyright da parte del New York Times e di altri editori, hanno sostenuto martedì davanti a un tribunale federale che il loro utilizzo di articoli di notizie disponibili al pubblico per addestrare modelli linguistici di grandi dimensioni (LLM) è legale ai sensi del fair use dottrina.

La causa , depositato nel dicembre 2023 e ora consolidato con affermazioni simili del New York Daily News e del Center for Investigative Reporting, sostiene che sistemi di intelligenza artificiale come ChatGPT e Microsoft Copilot hanno sfruttato materiale protetto da copyright senza autorizzazione, minando le entrate degli editori e i diritti di proprietà intellettuale.

I querelanti affermano che questi modelli di intelligenza artificiale, addestrati su set di dati contenenti milioni di articoli, possono riprodurre o riassumere il loro contenuto in modi che sostituiscono le opere originali.”Si tratta di sostituire il contenuto, non di trasformarlo”, ha affermato Ian Crosby, rappresentante del New York Times.

Crosby ha avvertito che tali pratiche potrebbero deviare tra il 30% e il 50% del traffico di notizie online lontano dagli editori siti web.

La dottrina del fair use al centro del caso

La difesa di OpenAI si basa sull’argomento secondo cui il loro utilizzo dei dati delle notizie è trasformativo e quindi protetto da la dottrina del fair use Joseph Gratz, un avvocato di OpenAI, ha spiegato al giudice Sidney Stein che ChatGPT elabora i dati suddividendoli in unità più piccole chiamate token, consentendo al modello di riconoscere modelli e generare nuovi contenuti anziché replicare direttamente il testo

Joseph Gratz, un avvocato di OpenAI, ha affermato che rigurgitare interi articoli”non è ciò per cui è stato progettato e non è ciò che fa”quando si tratta di come funziona ChatGPT, sostenendo che gli output che assomigliano a materiale protetto da copyright spesso si verificano solo dopo richieste specifiche dell’utente tentare deliberatamente di suscitare tali risposte.

Il team legale di Microsoft ha sostenuto queste affermazioni, tracciando parallelismi tra la formazione sull’intelligenza artificiale e le precedenti innovazioni tecnologiche come videoregistratori e fotocopiatrici, che inizialmente erano contestato ma alla fine ritenuto legittimo.

Hanno sostenuto che il fair use consente lo sviluppo di tecnologie a beneficio della società senza compromettere i diritti dei creatori di contenuti.”La legge sul copyright non è un ostacolo per il LLM più di quanto lo fosse per il videoregistratore (o la pianola, la fotocopiatrice, il personal computer, Internet o il motore di ricerca)”, ha affermato la società nella sua documentazione in tribunale.

Gli editori rivendicano danni finanziari ed etici

Gli editori sostengono che l’uso senza licenza dei loro contenuti non solo viola la legge sul copyright ma minaccia anche la loro sostenibilità finanziaria. La causa evidenzia esempi specifici dove gli strumenti di intelligenza artificiale riassumono articoli o forniscono consigli sui prodotti che aggirano i limiti di pagamento degli editori

Secondo il Times, Bing Chat di Microsoft, ora rinominato Copilot, ha reindirizzato i potenziali lettori lontano dal suo piattaforma affiliata Wirecutter, riducendo il traffico e le entrate.

Steven Lieberman, rappresentante del New York Daily News, ha criticato le aziende tecnologiche dipendenza da fonti come Common Crawl, un’organizzazione no-profit che aggrega dati web per uso pubblico. Ha descritto la pratica come un”free riding”sul lavoro di giornalisti ed editori, consentendo alle aziende di intelligenza artificiale di monetizzare contenuti che non hanno creato o concesso in licenza.

Mentre OpenAI sostiene che questo approccio democratizza l’accesso ai dati, i critici sottolineano fuori che include materiali protetti da copyright senza un controllo adeguato

Ad aggravare il problema è l’uso da parte di OpenAI della generazione aumentata di recupero (RAG), un metodo che integra informazioni in tempo reale dal file. web in risposte generate dall’intelligenza artificiale Sebbene questa tecnica migliori la pertinenza e l’accuratezza dei risultati, solleva interrogativi sul modo in cui i contenuti degli editori vengono accessibili e riprodotti.

La posta in gioco è alta: potenziale distruzione del set di dati e sanzioni finanziarie.

La causa chiede danni per miliardi di dollari e chiede la distruzione di set di dati contenenti materiali non autorizzati. Tale sentenza potrebbe avere profonde implicazioni per OpenAI e Microsoft, costringendoli a ricostruirli i loro sistemi di intelligenza artificiale utilizzando solo contenuti concessi in licenza o di pubblico dominio.

Legge federale sul copyright prevede multe fino a $ 150.000 per ogni caso di violazione intenzionale

a>, una cifra che potrebbe aumentare notevolmente dato il volume di dati coinvolti.

Ritardato Media Manager Tool e risposte del settore

La causa ha inoltre sottolinea le frustrazioni per il ritardo nell’implementazione da parte di OpenAI del suo strumento Media Manager, inizialmente promesso nel maggio 2024 per dare ai creatori un maggiore controllo sul modo in cui i loro contenuti vengono utilizzati nei set di dati di addestramento dell’IA.

I critici sostengono che questo fallimento lascia agli editori più piccoli e ai creatori indipendenti opzioni limitate per proteggere la loro proprietà intellettuale.

Mentre importanti editori come TIME, The New Yorker, Vogue, Vanity Fair, Bon Appetit e Wired e più di 2oo altre pubblicazioni hanno stipulato accordi di licenza con OpenAI, molti attori più piccoli non hanno le risorse per negoziare accordi simili.

Il settore in generale rimane diviso, con alcune aziende che abbracciano partnership per concedere in licenza contenuti per lo sviluppo dell’intelligenza artificiale, mentre altre portano avanti controversie. In Canada, una coalizione di editori ha intentato causa accusando OpenAI di”scraping diffuso”e autori di spicco come Michael Chabon hanno espresso preoccupazioni simili.

Il giudice si pronuncia sulla mozione di licenziamento

Il giudice Sidney Stein, che ha dimostrato una forte comprensione delle questioni tecniche durante l’udienza, deve ancora pronunciarsi sulla richiesta di licenziamento degli imputati.

Stein ha riconosciuto la complessità del caso, affermando che il fair use probabilmente svolgerebbe un ruolo fondamentale nella sua decisione. Il risultato potrebbe costituire un precedente fondamentale sul modo in cui i sistemi di intelligenza artificiale generativa interagiscono con i materiali protetti da copyright e sugli obblighi degli sviluppatori nei confronti dei creatori di contenuti.

Mentre i procedimenti legali continuano, le implicazioni si estendono ben oltre OpenAI e Microsoft. Questo caso ha il potenziale per plasmare il futuro dell’intelligenza artificiale generativa, bilanciando l’innovazione con i diritti di editori e creatori.