GitHub-Project tilbyr å blokkere alle kjente AI-webcrawlere via ROBOTS.TXT

Et GitHub-vertsprosjekt tilbyr en kuratert robots.txt-fil designet for å blokkere kjente AI-søkeroboter fra å få tilgang til innhold på nettstedet.

Initiativet kalt ai.robots.txt har som mål å beskytte nettmateriell fra å bli brukt til å trene store språkmodeller (LLM) uten tillatelse.

Ved å tilby en enkel fil som viser kjente AI-søkeprogrammer som er konfigurert for blokkering, inviterer prosjektet utviklere til å hevde større kontroll over dataene sine og oppmuntrer AI-bedrifter til å følge etisk praksis.

Prosjektet gjenspeiler vekst frustrasjon blant utviklere og utgivere med de ugjennomsiktige metodene AI-systemer bruker for å samle treningsdata. Selv om den ikke kan håndheve overholdelse, setter deres kuraterte robots.txt søkelyset på det etiske ansvaret til AI-selskaper når deres teknologier omformer internett.

Hvordan den kurerte Robots.txt fungerer

Den tilbudte robots.txt-filen inkluderer en åpen kildekodeliste over brukeragentnavn knyttet til AI-søkeroboter, delvis hentet fra Dark Visitors, et initiativ som sporer bot aktivitet.

Utviklere oppfordres til å bidra med oppdateringer ved å sende inn pull-forespørsler på GitHub, for å sikre at listen forblir oppdatert når nye roboter dukker opp. Selv om det er avhengig av frivillig tilslutning fra AI-selskaper, gir prosjektet et sårt tiltrengt verktøy for nettstedeiere som ønsker å administrere hvordan innholdet deres får tilgang til og brukes.

Mens den kuraterte robots.txt-filen gir et verdifullt verktøy for utviklere er effektiviteten begrenset av avhengigheten av frivillig overholdelse. Mange AI-søkeroboter opererer utenfor de etiske grensene som respekteres av tradisjonelle søkeroboter som Googlebot.

Avanserte teknikker som hodeløs surfing, som gjør det mulig for roboter å etterligne menneskelig atferd, gjør det vanskeligere å identifisere og blokkere uautorisert tilgang.

Tiltak på serversiden, som IP-blokkering og tilpasset brannmurregler, tilbyr ekstra beskyttelse, men er ikke idiotsikker.

Flere og flere robotsøkeprogrammer høster for AI

Microsofts Bing-søkerobot respekterer angivelig robots.txt for sin søkeindeks, som ble klart da Reddit begynte å tilby innholdet sitt eksklusivt til Google og blokkere andre søkemotorer som Bing og DuckDuckGo. Dette handlet imidlertid først og fremst om å gjennomsøke sider for søk og ikke opplæring av store språkmodeller (LLM).

Som viser tilfellet med Meta, viker ikke store teknologiselskaper unna å bruke lyssky taktikker for å få data for deres AI-trening. Selskapet skal ha brukt uautoriserte datasett med piratkopierte bøker og akademiske artikler.

YouTube-skapere påvirkes på lignende måte, som viser søksmål mot Google-datterselskapet og Nvidia, som påstår brukte videoer uten tillatelse til AI-opplæring.

Perplexity AI: En sak med overholdelsesproblemer

Behovet for avansert blokkering av gjennomsøkende bot ble spesielt tydelig i fjor gjennom hendelser som involverte Perplexity AI. Utvikler Robb Knight avdekket at Perplexity AI fikk tilgang til innhold fra nettstedene hans, Radweb og MacStories, til tross for eksplisitte robots.txt-direktiver og serversideblokker konfigurert til å returnere”403 Forbidden”-svar.

En analyse av serverlogger avslørte at PerplexityBot brukte villedende teknikker for å omgå restriksjonene, for eksempel å operere gjennom hodeløse nettlesere og maskere identiteten med vanlige brukeragentstrenger som Google Chrome på Windows

Disse metodene tillot det å unnvike gjenkjenning mens de skrapte begrenset innhold burde ikke ha skjedd.”

MacStories’Federico Viticci bekreftet Knights funn, og forklarte det ekstra servernivået tiltak hadde blitt utplassert for å blokkere PerplexityBot. Selv disse avanserte beskyttelsene var imidlertid ikke idiotsikker, noe som understreker vanskeligheten med å sikre overholdelse av etiske standarder i webcrawling.

I Perplexity AIs tilfelle bemerket Knight at IP-områdene ikke samsvarte med noen offentlig kjente bedriftseide adresser, noe som kompliserer håndhevingsarbeidet ytterligere. Dette fremhever behovet for mer robuste verktøy og regulatoriske rammer for å møte utfordringene fra stadig mer sofistikerte AI-roboter.

Forvirring er imidlertid ikke alene i denne praksisen, slik det økende antallet opphavsrettssøksmål mot AI-utviklere viser. The New York Times er involvert i en kostbar rettssak mot Microsoft og OpenAI på grunn av innholdstyveri.

Saken er bare ett eksempel på en større bølge av misnøye blant medier, som har bedt om strengere standarder for å styre AI datainnsamling.

GitHub-Project tilbyr å blokkere alle kjente AI-webcrawlere via ROBOTS.TXT

Published by All Things Windows on January 14, 2025

Hvordan den kurerte Robots.txt fungerer

Flere og flere robotsøkeprogrammer høster for AI

Perplexity AI: En sak med overholdelsesproblemer

IT Info

Slik deler du filer fra Android til Windows 11

IT Info

Windows 11, 10. januar 2025-oppdateringer kommer med KB5050009, KB5050021, KB5049981

IT Info

Slik endrer du nedlastingsmappe for telefonkobling i Windows 11

GitHub-Project tilbyr å blokkere alle kjente AI-webcrawlere via ROBOTS.TXT

Published by All Things Windows on January 14, 2025

Hvordan den kurerte Robots.txt fungerer

Flere og flere robotsøkeprogrammer høster for AI

Perplexity AI: En sak med overholdelsesproblemer

Related Posts

IT Info

Slik deler du filer fra Android til Windows 11

IT Info

Windows 11, 10. januar 2025-oppdateringer kommer med KB5050009, KB5050021, KB5049981

IT Info

Slik endrer du nedlastingsmappe for telefonkobling i Windows 11