Et GitHub-vertsprosjekt tilbyr en kuratert robots.txt-fil designet for å blokkere kjente AI-søkeroboter fra å få tilgang til innhold på nettstedet.
Initiativet kalt ai.robots.txt har som mål å beskytte nettmateriell fra å bli brukt til å trene store språkmodeller (LLM) uten tillatelse.
Ved å tilby en enkel fil som viser kjente AI-søkeprogrammer som er konfigurert for blokkering, inviterer prosjektet utviklere til å hevde større kontroll over dataene sine og oppmuntrer AI-bedrifter til å følge etisk praksis.
Prosjektet gjenspeiler vekst frustrasjon blant utviklere og utgivere med de ugjennomsiktige metodene AI-systemer bruker for å samle treningsdata. Selv om den ikke kan håndheve overholdelse, setter deres kuraterte robots.txt søkelyset på det etiske ansvaret til AI-selskaper når deres teknologier omformer internett.
Hvordan den kurerte Robots.txt fungerer
Den tilbudte robots.txt-filen inkluderer en åpen kildekodeliste over brukeragentnavn knyttet til AI-søkeroboter, delvis hentet fra Dark Visitors, et initiativ som sporer bot aktivitet.
Utviklere oppfordres til å bidra med oppdateringer ved å sende inn pull-forespørsler på GitHub, for å sikre at listen forblir oppdatert når nye roboter dukker opp. Selv om det er avhengig av frivillig tilslutning fra AI-selskaper, gir prosjektet et sårt tiltrengt verktøy for nettstedeiere som ønsker å administrere hvordan innholdet deres får tilgang til og brukes.
Mens den kuraterte robots.txt-filen gir et verdifullt verktøy for utviklere er effektiviteten begrenset av avhengigheten av frivillig overholdelse. Mange AI-søkeroboter opererer utenfor de etiske grensene som respekteres av tradisjonelle søkeroboter som Googlebot.
Avanserte teknikker som hodeløs surfing, som gjør det mulig for roboter å etterligne menneskelig atferd, gjør det vanskeligere å identifisere og blokkere uautorisert tilgang.
Tiltak på serversiden, som IP-blokkering og tilpasset brannmurregler, tilbyr ekstra beskyttelse, men er ikke idiotsikker.
Flere og flere robotsøkeprogrammer høster for AI
Microsofts Bing-søkerobot respekterer angivelig robots.txt for sin søkeindeks, som ble klart da Reddit begynte å tilby innholdet sitt eksklusivt til Google og blokkere andre søkemotorer som Bing og DuckDuckGo. Dette handlet imidlertid først og fremst om å gjennomsøke sider for søk og ikke opplæring av store språkmodeller (LLM).
Som viser tilfellet med Meta, viker ikke store teknologiselskaper unna å bruke lyssky taktikker for å få data for deres AI-trening. Selskapet skal ha brukt uautoriserte datasett med piratkopierte bøker og akademiske artikler.
YouTube-skapere påvirkes på lignende måte, som viser søksmål mot Google-datterselskapet og Nvidia, som påstår brukte videoer uten tillatelse til AI-opplæring.
Perplexity AI: En sak med overholdelsesproblemer
Behovet for avansert blokkering av gjennomsøkende bot ble spesielt tydelig i fjor gjennom hendelser som involverte Perplexity AI. Utvikler Robb Knight avdekket at Perplexity AI fikk tilgang til innhold fra nettstedene hans, Radweb og MacStories, til tross for eksplisitte robots.txt-direktiver og serversideblokker konfigurert til å returnere”403 Forbidden”-svar.
En analyse av serverlogger avslørte at PerplexityBot brukte villedende teknikker for å omgå restriksjonene, for eksempel å operere gjennom hodeløse nettlesere og maskere identiteten med vanlige brukeragentstrenger som Google Chrome på Windows
Disse metodene tillot det å unnvike gjenkjenning mens de skrapte begrenset innhold burde ikke ha skjedd.”
MacStories’Federico Viticci bekreftet Knights funn, og forklarte det ekstra servernivået tiltak hadde blitt utplassert for å blokkere PerplexityBot. Selv disse avanserte beskyttelsene var imidlertid ikke idiotsikker, noe som understreker vanskeligheten med å sikre overholdelse av etiske standarder i webcrawling.
I Perplexity AIs tilfelle bemerket Knight at IP-områdene ikke samsvarte med noen offentlig kjente bedriftseide adresser, noe som kompliserer håndhevingsarbeidet ytterligere. Dette fremhever behovet for mer robuste verktøy og regulatoriske rammer for å møte utfordringene fra stadig mer sofistikerte AI-roboter.
Forvirring er imidlertid ikke alene i denne praksisen, slik det økende antallet opphavsrettssøksmål mot AI-utviklere viser. The New York Times er involvert i en kostbar rettssak mot Microsoft og OpenAI på grunn av innholdstyveri.
Saken er bare ett eksempel på en større bølge av misnøye blant medier, som har bedt om strengere standarder for å styre AI datainnsamling.