Reddit ha intentato una causa federale a New York mercoledì, accusando la società di ricerca AI Perplexity e tre data broker di uno schema”su scala industriale”per raschiare illegalmente i suoi contenuti.

Nella sua denuncia, Reddit sostiene che Perplexity, con l’aiuto di SerpApi, Oxylabs e AWMProxy, ha aggirato le misure di sicurezza per rubare le conversazioni degli utenti direttamente dai risultati di ricerca di Google.

Un metodo di questo tipo elude i canali di licenza ufficiali di Reddit, utilizzati da partner come Google e OpenAI. Reddit sostiene che gli imputati hanno ignorato una lettera di cessazione e desistenza e violato la legge sul copyright, intensificando la battaglia del settore tecnologico sul corretto utilizzo dei dati per l’addestramento dei modelli di intelligenza artificiale.

Una”rapina in banca”attraverso La backdoor di Google

Al centro della disputa c’è un nuovo metodo di acquisizione dati che prende di mira gli intermediari di Internet, i motori di ricerca, piuttosto che la fonte stessa.

La denuncia di Reddit sostiene che gli imputati hanno creato strumenti per eludere le protezioni anti-scraping di Google, consentendo loro di raccogliere contenuti Reddit dalle pagine dei risultati dei motori di ricerca (SERP) su vasta scala.

La sua causa elenca molteplici capi di imputazione, tra cui concorrenza sleale, arricchimento ingiusto e violazioni del Digital Millennium Copyright Act (DMCA).

In un documento legale ricco di linguaggio combattivo, Reddit ha posizionato gli imputati non solo come trasgressori ma come partecipanti a un’economia di”riciclaggio di dati”.

“Le aziende di intelligenza artificiale sono impegnate in una corsa agli armamenti per contenuti umani di qualità e tale pressione ha alimentato un’economia di”riciclaggio di dati”su scala industriale.”Gli avvocati dell’azienda hanno affermato:”In un senso molto reale, questi imputati sono simili ad aspiranti rapinatori di banche che, sapendo di non poter entrare nel caveau della banca, irrompono invece nel camion blindato che trasporta i contanti.”

Per dimostrare le sue accuse, Reddit ha condotto un’operazione di puntura digitale. Ha creato un”post di prova”configurato per essere accessibile solo al crawler di ricerca di Google e da nessun’altra parte online.

In poche ore, il motore di risposta di Perplexity è stato in grado di riprodurre il contenuto del post. Reddit afferma che questa è una prova inconfutabile dello schema, poiché l’unico modo in cui Perplexity avrebbe potuto ottenere i dati era estraendoli dai risultati di ricerca di Google.

La principale arma legale di Reddit è il DMCA. Nello specifico, invoca la Sezione 1201, che rende illegale aggirare le misure tecnologiche che controllano l’accesso alle opere protette da copyright. Reddit sostiene che sia le protezioni dei propri siti che il sistema SearchGuard di Google si qualificano come tali misure. Prendendo di mira l’atto di elusione, la legge fornisce un potente strumento contro i servizi che consentono lo scraping, non solo contro coloro che lo eseguono.

Proteggere i gioielli della corona: la duplice strategia sui dati di Reddit

Alla base della battaglia legale c’è l’immenso valore del vasto archivio di conversazioni umane di Reddit.

Un recente rapporto della società di analisi Profound ha confermato che Reddit è il dominio più citato tra tutti i principali modelli di intelligenza artificiale, rendendo il suo contenuto una risorsa fondamentale per la formazione di modelli linguistici di grandi dimensioni. Il suo archivio unico e costantemente aggiornato dell’esperienza umana è una miniera d’oro per il settore dell’intelligenza artificiale, affamato di dati.

Consapevole di ciò, Reddit ha adottato una solida strategia su due fronti: monetizzare attraverso la partnership e proteggere attraverso le controversie.

L’azienda ha firmato lucrosi accordi di licenza dei dati con i principali attori dell’intelligenza artificiale, incluso un accordo annuale da 60 milioni di dollari con Google e un altro con OpenAI. Questi accordi stabiliscono un percorso formale e retribuito per accedere ai suoi contenuti.

Allo stesso tempo, Reddit ha dimostrato che perseguirà in modo aggressivo le aziende che ritiene stiano utilizzando i suoi dati senza autorizzazione.

La sua nuova causa fa seguito a un’azione legale simile intentata contro la startup di intelligenza artificiale Anthropic nel giugno 2025 per presunto scraping di dati senza licenza. Insieme, questi casi segnalano una politica chiara e incrollabile di difesa dei dati come risorsa aziendale principale.

Perplexity in the Crosshairs: A Pattern of Publisher Conflict

Mentre Perplexity sostiene pubblicamente il libero accesso alla conoscenza, la causa di Reddit dipinge l’immagine di un’azienda che elude deliberatamente le regole della piattaforma.

Secondo la denuncia, Reddit ha inviato una lettera di cessazione e desistenza a Perplexity nel maggio 2024. Invece di obbedire, sostiene Reddit, l’uso dei suoi contenuti da parte di Perplexity è aumentato, con citazioni che sono aumentate di quaranta volte.

Nominando SerpApi, Oxylabs e AWMProxy come co-cospiratori, la causa li accusa di fornire i mezzi tecnici per aggirare la sicurezza. Descrive AWMProxy con particolare severità, citando lavoro investigativo che lo collega alla”ex botnet russa”Glupteba.

I dettagli nel documento dipingono un quadro sconcertante della portata dell’operazione; Reddit sostiene che durante un solo periodo di due settimane nel luglio 2025, le società di scraping hanno avuto accesso illecitamente a quasi tre miliardi di pagine di ricerca di Google contenenti i suoi contenuti.

Il capo legale di Reddit, Ben Lee, ha dichiarato:”Perplexity è un cliente consenziente di almeno uno di questi scraper, che sceglie di acquistare dati rubati piuttosto che stipulare un accordo legale con Reddit stesso.”

Tutti gli imputati nominati hanno fatto ricorso con la forza ha negato le accuse. In una dichiarazione, il responsabile della comunicazione di Perplexity, Jesse Dwyer, ha affermato:”Il nostro approccio rimane basato su principi e responsabilità poiché forniamo risposte concrete con un’intelligenza artificiale accurata e non tollereremo minacce contro la trasparenza e l’interesse pubblico”.

Ryan Schafer, direttore di SerpApi, ha dichiarato ad Adweek:”Siamo fortemente in disaccordo con le accuse di Reddit e intendiamo difenderci vigorosamente in tribunale.”

Il Chief Governance and Strategy Officer di Oxylabs, Denas Grybauskas, ha fatto eco a questo, affermando che la società”non esiterà a difendersi da queste accuse”.

Per Perplexity, questa non è la prima volta che si trova ad affrontare tali accuse. L’azienda di intelligenza artificiale sta già combattendo cause legali da parte di importanti editori, tra cui News Corp, Encyclopedia Britannica e Merriam Webster.

È stata anche accusata pubblicamente dalla società di sicurezza web Cloudflare di utilizzare”crawler invisibili”per aggirare le regole del sito Web e rimuovere contenuti da siti che lo avevano esplicitamente vietato.

Quest’ultima causa intentata da Reddit aggiunge un’altra importante sfida legale a un elenco crescente, sottoponendo le pratiche di raccolta dati di Perplexity a un attento esame.

Categories: IT Info