Un proiect găzduit de GitHub oferă un fișier robots.txt creat pentru a bloca accesul crawlerelor AI cunoscute la conținutul site-ului web.
Inițiativa numită ai.robots.txt își propune să protejeze materialele online de a fi folosit pentru a antrena modele lingvistice mari (LLM) fără permisiune.
Oferind un fișier simplu care listează crawlerele AI cunoscute configurate pentru blocare, proiectul invită dezvoltatorii să-și afirme un control mai mare asupra datelor lor și încurajează companiile AI să adere la practici etice.
Proiectul reflectă frustrarea crescândă în rândul dezvoltatorilor și editorilor cu metodele opace pe care sistemele AI le folosesc pentru a colecta date de instruire. Deși nu poate impune conformitatea, robots.txt organizat de ei pune în atenție responsabilitățile etice ale companiilor de inteligență artificială, deoarece tehnologiile lor remodelează internetul.
Cum funcționează Robots.txt curatat
Fișierul robots.txt oferit include o listă open-source de nume de agenți de utilizator asociate cu crawlerele AI, provenite parțial de la Dark Visitors, un inițiativă care urmărește activitatea botului.
Dezvoltatorii sunt încurajați să contribuie la actualizări trimițând solicitări de extragere pe GitHub, asigurându-se că lista rămâne actuală pe măsură ce apar noi roți. Deși se bazează pe aderarea voluntară a companiilor de inteligență artificială, proiectul oferă un instrument foarte necesar proprietarilor de site-uri care doresc să gestioneze modul în care conținutul lor este accesat și utilizat.
În timp ce fișierul robots.txt organizat oferă un instrument valoros pentru dezvoltatori, eficacitatea sa este limitată de dependența de conformitatea voluntară. Mulți crawler-uri AI operează în afara granițelor etice respectate de crawlerele web tradiționale precum Googlebot.
Tehnicile avansate, cum ar fi navigarea fără cap, care le permite roboților să imite comportamentul uman, îngreunează identificarea și blocarea accesului neautorizat.
Măsuri la nivelul serverului, cum ar fi blocarea IP și personalizarea regulile firewall, oferă protecție suplimentară, dar nu sunt sigure.
Din ce în ce mai mulți crawler-uri recoltează pentru AI
Microsoft Bing crawler respectă robots.txt pentru indexul său de căutare, așa cum a devenit clar atunci când Reddit a început să-și ofere conținutul exclusiv pentru Google și să blocheze alte motoare de căutare precum Bing și DuckDuckGo. Cu toate acestea, aceasta a fost în primul rând despre accesarea cu crawlere a paginilor pentru căutare și nu despre instruirea modelelor lingvistice mari (LLM).
Așa cum arată cazul Meta, marile companii de tehnologie nu se feresc să folosească tactici dubioase pentru a obține date pentru antrenamentul lor AI. Se pare că compania a folosit seturi de date neautorizate cu cărți piratate și articole academice.
Creatorii YouTube sunt afectați într-un mod similar, așa cum arată procesele intentate împotriva filialei Google și a Nvidia, care presupun că videoclipurile folosite fără permisiunea pentru instruirea AI.
Perplexity AI.: Un caz cu probleme de conformitate
Nevoia de blocare avansată a botului de crawling a devenit deosebit de evidentă anul trecut prin incidente care au implicat Perplexity AI. Dezvoltatorul Robb Knight a descoperit că Perplexity AI a accesat conținut de pe site-urile sale web, Radweb și MacStories, în ciuda directivelor robots.txt explicite și a blocurilor de pe partea serverului configurate pentru a returna răspunsuri „403 interzise”.
O analiză a jurnalelor de server a dezvăluit. că PerplexityBot a folosit tehnici înșelătoare pentru a ocoli restricțiile, cum ar fi operarea prin browsere fără cap și mascarea identității sale cu un agent de utilizator comun șiruri precum Google Chrome pe Windows
Aceste metode i-au permis să evite detectarea în timp ce elimina conținutul restricționat. Rezumatul conținutului restricționat nu ar fi trebuit să se întâmple.”
Federico Viticci de la MacStories a confirmat descoperirile lui Knight, explicând că au fost implementate măsuri suplimentare la nivel de server pentru a bloca PerplexityBot. Cu toate acestea, chiar și aceste protecții avansate nu au fost sigure, evidențiind dificultatea de a asigura conformitatea cu standardele etice în accesarea cu crawlere pe web.
În cazul lui Perplexity AI, Knight a remarcat că intervalele sale de IP nu se potriveau cu nicio companie cunoscută public, deținută de o companie. adrese, complicând și mai mult eforturile de aplicare. Acest lucru evidențiază necesitatea unor instrumente și cadre de reglementare mai solide pentru a aborda provocările generate de roboții AI din ce în ce mai sofisticați.
Perplexitatea nu este însă singura în această practică, așa cum arată numărul tot mai mare de procese pentru drepturi de autor împotriva dezvoltatorilor de AI. New York Times este implicat într-un proces costisitor împotriva Microsoft și OpenAI pentru furtul de conținut.
Cazul este doar un exemplu al unui val mai mare de nemulțumire în rândul instituțiilor media, care au cerut standarde mai stricte pentru a guverna AI. colectarea datelor.