Un progetto ospitato su GitHub offre un file robots.txt curato progettato per impedire ai crawler AI noti di accedere ai contenuti del sito web.
L’iniziativa denominata ai.robots.txt mira a proteggere i materiali online dall’essere utilizzato per addestrare modelli linguistici di grandi dimensioni (LLM) senza autorizzazione.
Offrendo un semplice file che elenca i crawler AI noti configurati per il blocco, il progetto invita gli sviluppatori ad affermare un maggiore controllo sui propri dati e incoraggia le società di intelligenza artificiale ad aderire a pratiche etiche.
Il progetto riflette la crescente frustrazione tra sviluppatori ed editori per i metodi opachi utilizzati dai sistemi di intelligenza artificiale per raccogliere dati di allenamento. Sebbene non possa garantire la conformità, il loro curato robots.txt mette in luce le responsabilità etiche delle aziende di intelligenza artificiale mentre le loro tecnologie rimodellano Internet.
Come funziona il curato robots.txt
Il file robots.txt offerto include un elenco open source di nomi di agenti utente associati ai crawler AI, provenienti in parte da Dark Visitors, un’iniziativa che tiene traccia dell’attività dei bot.
Gli sviluppatori sono incoraggiati per contribuire agli aggiornamenti inviando richieste pull su GitHub, garantendo che l’elenco rimanga aggiornato man mano che emergono nuovi bot. Sebbene si basi sull’adesione volontaria delle società di intelligenza artificiale, il progetto fornisce uno strumento molto necessario per i proprietari di siti che cercano di gestire il modo in cui i loro contenuti vengono accessibili e utilizzati.
Sebbene il file robots.txt curato fornisca uno strumento prezioso per gli sviluppatori, la sua efficacia è limitata dalla dipendenza dalla conformità volontaria. Molti crawler AI operano al di fuori dei confini etici rispettati dai web crawler tradizionali come Googlebot.
Tecniche avanzate come la navigazione senza testa, che consente ai bot di imitare il comportamento umano, rendono più difficile identificare e bloccare l’accesso non autorizzato.
Misure lato server, come il blocco IP e la personalizzazione regole firewall, offrono protezione aggiuntiva ma non sono infallibili.
Sempre più crawler utilizzano l’intelligenza artificiale
Secondo quanto riferito, il crawler Bing di Microsoft rispetta il file robots.txt per il suo indice di ricerca, come è diventato chiaro quando Reddit ha iniziato a offrire i suoi contenuti esclusivamente a Google e a bloccare altri motori di ricerca come Bing e DuckDuckGo. Tuttavia, si trattava principalmente di eseguire la scansione delle pagine per la ricerca e non di addestrare Large Language Models (LLM).
Come mostra il caso di Meta, le grandi aziende tecnologiche non si tirano indietro dall’utilizzare tattiche losche per ottenere dati per la loro formazione sull’intelligenza artificiale. Secondo quanto riferito, la società ha utilizzato set di dati non autorizzati con libri e articoli accademici piratati.
I creatori di YouTube sono colpiti in modo simile, come dimostrano le azioni legali intentate contro la filiale di Google e Nvidia, che sostengono di aver utilizzato video senza autorizzazione per l’addestramento sull’intelligenza artificiale.
Perplexity AI: un caso con problemi di conformità
La necessità di un blocco avanzato dei bot di scansione è diventata particolarmente evidente lo scorso anno a causa di incidenti che hanno coinvolto Perplexity AI. Lo sviluppatore Robb Knight ha scoperto che Perplexity AI accedeva ai contenuti dei suoi siti web, Radweb e MacStories, nonostante le direttive esplicite del file robots.txt e i blocchi lato server configurati per restituire risposte”403 Forbidden”.
Un’analisi dei log del server ha rivelato che PerplexityBot ha utilizzato tecniche ingannevoli per aggirare le restrizioni, come operare tramite browser headless e mascherare la propria identità con stringhe di user agent comuni come Google Chrome su Windows
Questi metodi sono consentiti per eludere il rilevamento durante l’estrazione di contenuti limitati. Inizialmente, Perplexity AI ha negato la possibilità di aggirare queste restrizioni, tuttavia, in seguito ha ammesso di aver commesso errori etici, affermando:”Il riassunto dei contenuti limitati non avrebbe dovuto accadere.”
MacStories. Federico Viticci ha confermato le scoperte di Knight, spiegando che erano state implementate ulteriori misure a livello di server per bloccare PerplexityBot. Tuttavia, anche queste protezioni avanzate non erano infallibili, evidenziando la difficoltà di garantire il rispetto degli standard etici nella scansione del web.
Nel caso di Perplexity AI, Knight ha osservato che i suoi intervalli IP non corrispondevano a nessun indirizzi, complicando ulteriormente gli sforzi di applicazione delle norme. Ciò evidenzia la necessità di strumenti e quadri normativi più robusti per affrontare le sfide poste da robot IA sempre più sofisticati.
La perplessità, tuttavia, non è l’unica in questa pratica, come dimostra il numero crescente di cause legali sul copyright contro gli sviluppatori di IA. Il New York Times è coinvolto in una costosa causa contro Microsoft e OpenAI per furto di contenuti.
Il caso è solo un esempio di una più ampia ondata di insoddisfazione tra i media, che hanno chiesto standard più severi per governare l’IA raccolta dati.