Egy GitHub által üzemeltetett projekt egy kurált robots.txt fájlt kínál, amely megakadályozza, hogy az ismert mesterséges intelligenciarobotok hozzáférjenek a webhely tartalmához.
Az ai.robots.txt nevű kezdeményezés célja az online anyagok védelme attól, hogy engedély nélkül nagy nyelvi modellek (LLM) képzésére használják.
Egy egyszerű fájl felajánlásával, amely felsorolja a blokkolásra beállított ismert mesterséges intelligencia bejárókat, a projekt felkéri a fejlesztőket, hogy nagyobb ellenőrzést gyakoroljanak adataik felett, és arra ösztönzi a mesterséges intelligencia vállalatokat, hogy tartsák be az etikai gyakorlatokat.
A projekt a fejlesztők és kiadók növekvő frusztrációját tükrözi az AI-rendszerek által a képzési adatok gyűjtésére használt átláthatatlan módszerek miatt. Bár nem tudja kikényszeríteni a megfelelést, az általuk összeállított robots.txt a mesterséges intelligencia-cégek etikai felelősségére helyezi a reflektorfényt, miközben technológiáik átalakítják az internetet.
Hogyan működik a kurátoros Robots.txt
A felajánlott robots.txt fájl tartalmaz egy nyílt forráskódú listát a mesterséges intelligencia feltérképező robotjaihoz társított felhasználói ügynökök neveiről, amelyek részben a Darkból származnak. Látogatók, egy kezdeményezés, amely nyomon követi a botok tevékenységét.
A fejlesztőket arra bátorítjuk, hogy a GitHubon lekérési kérelmek elküldésével járuljanak hozzá a frissítésekhez, biztosítva, hogy a lista naprakész maradjon, amikor új botok jelennek meg. Noha a projekt a mesterséges intelligencia-cégek önkéntes betartásán alapul, a projekt egy nagyon szükséges eszközt biztosít a webhelytulajdonosok számára, akik szeretnék szabályozni, hogyan érik el és használják fel tartalmukat.
Míg a gondozott robots.txt fájl értékes eszközt biztosít. a fejlesztők számára hatékonyságát korlátozza az önkéntes megfelelés. Sok mesterséges intelligenciarobot a hagyományos webrobotok, például a Googlebot etikai határain kívül működik.
Az olyan fejlett technikák, mint például a fej nélküli böngészés, amely lehetővé teszi a robotok számára, hogy utánozzák az emberi viselkedést, megnehezítik a jogosulatlan hozzáférés azonosítását és blokkolását.
Szerveroldali intézkedések, például IP-blokkolás és testreszabott tűzfalszabályok, további védelmet kínálnak, de nem bolondbiztosak.
Egyre több feltérképező robot keres az AI-ért
A Microsoft Bing feltérképező robotja állítólag tiszteletben tartja a robots.txt fájlt keresési indexében, amint az világossá vált, amikor a Reddit kizárólag a Google számára kezdte kínálni a tartalmát, és blokkolt más keresőmotorokat, például a Binget és a DuckDuckGo-t. Ez azonban elsősorban az oldalak keresésre való feltérképezéséről szólt, nem pedig a Large Language Models (LLM-ek) betanításáról.
Amint a Meta esetében is látható, a nagy technológiai cégek nem riadnak vissza az árnyékos taktikáktól, hogy adatokat szerezzenek AI képzésük. A cég állítólag jogosulatlan adatkészleteket használt kalózkönyvekhez és tudományos cikkekhez.
A YouTube alkotóit hasonló módon érinti, mint a Google leányvállalata és az Nvidia ellen indított perek, amelyek állítólagos videókat mesterséges intelligencia oktatásához engedély nélkül használtak fel.
Perplexity AI.: Megfelelőségi problémákkal járó eset
A fejlett feltérképező robotok blokkolásának szükségessége tavaly különösen nyilvánvalóvá vált a következő események miatt: Perplexity AI. A fejlesztő Robb Knight feltárta, hogy a Perplexity AI hozzáfért a webhelyei, a Radweb és a MacStories tartalmaihoz, annak ellenére, hogy az explicit robots.txt direktívák és a szerveroldali blokkok úgy lettek beállítva, hogy „403 tiltott” válaszokat adjanak vissza.
A szervernaplók elemzése során kiderült, hogy hogy a PerplexityBot megtévesztő technikákat alkalmazott a korlátozások megkerülésére, például fej nélküli böngészőkön keresztül működött, és elfedte személyazonosságát a szokásos felhasználók előtt olyan ügynökkarakterláncok, mint a Google Chrome a Windows rendszeren. „A korlátozott tartalmak összegzésének nem lett volna szabad megtörténnie.”
A MacStoriesből, Federico Viticci megerősítette Knight megállapításait, kifejtve, hogy további szerverszintű intézkedéseket vezettek be a PerplexityBot blokkolására. Azonban még ezek a fejlett védelmek sem voltak tévedésbiztosak, ami rávilágított arra, hogy nehéz biztosítani az etikai normáknak való megfelelést a webes feltérképezés során.
A Perplexity AI esetében Knight megjegyezte, hogy IP-tartománya nem egyezik egyetlen nyilvánosan ismert vállalat tulajdonában lévő vállalattal sem. megnehezíti a végrehajtási erőfeszítéseket. Ez rávilágít arra, hogy robusztusabb eszközökre és szabályozási keretekre van szükség az egyre kifinomultabb mesterségesintelligencia-botok által támasztott kihívások kezelésére.
A bizonytalanság azonban nem egyedüli ebben a gyakorlatban, amint azt az AI-fejlesztők elleni szerzői jogi perek egyre növekvő száma mutatja. A New York Times egy költséges perben vesz részt a Microsoft és az OpenAI ellen tartalomlopás miatt.
Az eset csak egy példa a médiák körében tapasztalható nagyobb elégedetlenségi hullámra, amelyek szigorúbb szabványokat követeltek az AI szabályozására. adatgyűjtés.