A GitHub-Project felajánlja az összes ismert mesterséges intelligencia webrobot blokkolását a ROBOTS.TXT-n keresztül

Egy GitHub által üzemeltetett projekt egy kurált robots.txt fájlt kínál, amely megakadályozza, hogy az ismert mesterséges intelligenciarobotok hozzáférjenek a webhely tartalmához.

Az ai.robots.txt nevű kezdeményezés célja az online anyagok védelme attól, hogy engedély nélkül nagy nyelvi modellek (LLM) képzésére használják.

Egy egyszerű fájl felajánlásával, amely felsorolja a blokkolásra beállított ismert mesterséges intelligencia bejárókat, a projekt felkéri a fejlesztőket, hogy nagyobb ellenőrzést gyakoroljanak adataik felett, és arra ösztönzi a mesterséges intelligencia vállalatokat, hogy tartsák be az etikai gyakorlatokat.

A projekt a fejlesztők és kiadók növekvő frusztrációját tükrözi az AI-rendszerek által a képzési adatok gyűjtésére használt átláthatatlan módszerek miatt. Bár nem tudja kikényszeríteni a megfelelést, az általuk összeállított robots.txt a mesterséges intelligencia-cégek etikai felelősségére helyezi a reflektorfényt, miközben technológiáik átalakítják az internetet.

Hogyan működik a kurátoros Robots.txt

A felajánlott robots.txt fájl tartalmaz egy nyílt forráskódú listát a mesterséges intelligencia feltérképező robotjaihoz társított felhasználói ügynökök neveiről, amelyek részben a Darkból származnak. Látogatók, egy kezdeményezés, amely nyomon követi a botok tevékenységét.

A fejlesztőket arra bátorítjuk, hogy a GitHubon lekérési kérelmek elküldésével járuljanak hozzá a frissítésekhez, biztosítva, hogy a lista naprakész maradjon, amikor új botok jelennek meg. Noha a projekt a mesterséges intelligencia-cégek önkéntes betartásán alapul, a projekt egy nagyon szükséges eszközt biztosít a webhelytulajdonosok számára, akik szeretnék szabályozni, hogyan érik el és használják fel tartalmukat.

Míg a gondozott robots.txt fájl értékes eszközt biztosít. a fejlesztők számára hatékonyságát korlátozza az önkéntes megfelelés. Sok mesterséges intelligenciarobot a hagyományos webrobotok, például a Googlebot etikai határain kívül működik.

Az olyan fejlett technikák, mint például a fej nélküli böngészés, amely lehetővé teszi a robotok számára, hogy utánozzák az emberi viselkedést, megnehezítik a jogosulatlan hozzáférés azonosítását és blokkolását.

Szerveroldali intézkedések, például IP-blokkolás és testreszabott tűzfalszabályok, további védelmet kínálnak, de nem bolondbiztosak.

Egyre több feltérképező robot keres az AI-ért

A Microsoft Bing feltérképező robotja állítólag tiszteletben tartja a robots.txt fájlt keresési indexében, amint az világossá vált, amikor a Reddit kizárólag a Google számára kezdte kínálni a tartalmát, és blokkolt más keresőmotorokat, például a Binget és a DuckDuckGo-t. Ez azonban elsősorban az oldalak keresésre való feltérképezéséről szólt, nem pedig a Large Language Models (LLM-ek) betanításáról.

Amint a Meta esetében is látható, a nagy technológiai cégek nem riadnak vissza az árnyékos taktikáktól, hogy adatokat szerezzenek AI képzésük. A cég állítólag jogosulatlan adatkészleteket használt kalózkönyvekhez és tudományos cikkekhez.

A YouTube alkotóit hasonló módon érinti, mint a Google leányvállalata és az Nvidia ellen indított perek, amelyek állítólagos videókat mesterséges intelligencia oktatásához engedély nélkül használtak fel.

Perplexity AI.: Megfelelőségi problémákkal járó eset

A fejlett feltérképező robotok blokkolásának szükségessége tavaly különösen nyilvánvalóvá vált a következő események miatt: Perplexity AI. A fejlesztő Robb Knight feltárta, hogy a Perplexity AI hozzáfért a webhelyei, a Radweb és a MacStories tartalmaihoz, annak ellenére, hogy az explicit robots.txt direktívák és a szerveroldali blokkok úgy lettek beállítva, hogy „403 tiltott” válaszokat adjanak vissza.

A szervernaplók elemzése során kiderült, hogy hogy a PerplexityBot megtévesztő technikákat alkalmazott a korlátozások megkerülésére, például fej nélküli böngészőkön keresztül működött, és elfedte személyazonosságát a szokásos felhasználók előtt olyan ügynökkarakterláncok, mint a Google Chrome a Windows rendszeren. „A korlátozott tartalmak összegzésének nem lett volna szabad megtörténnie.”

A MacStoriesből, Federico Viticci megerősítette Knight megállapításait, kifejtve, hogy további szerverszintű intézkedéseket vezettek be a PerplexityBot blokkolására. Azonban még ezek a fejlett védelmek sem voltak tévedésbiztosak, ami rávilágított arra, hogy nehéz biztosítani az etikai normáknak való megfelelést a webes feltérképezés során.

A Perplexity AI esetében Knight megjegyezte, hogy IP-tartománya nem egyezik egyetlen nyilvánosan ismert vállalat tulajdonában lévő vállalattal sem. megnehezíti a végrehajtási erőfeszítéseket. Ez rávilágít arra, hogy robusztusabb eszközökre és szabályozási keretekre van szükség az egyre kifinomultabb mesterségesintelligencia-botok által támasztott kihívások kezelésére.

A bizonytalanság azonban nem egyedüli ebben a gyakorlatban, amint azt az AI-fejlesztők elleni szerzői jogi perek egyre növekvő száma mutatja. A New York Times egy költséges perben vesz részt a Microsoft és az OpenAI ellen tartalomlopás miatt.

Az eset csak egy példa a médiák körében tapasztalható nagyobb elégedetlenségi hullámra, amelyek szigorúbb szabványokat követeltek az AI szabályozására. adatgyűjtés.

A GitHub-Project felajánlja az összes ismert mesterséges intelligencia webrobot blokkolását a ROBOTS.TXT-n keresztül

Published by All Things Windows on January 14, 2025

Hogyan működik a kurátoros Robots.txt

Egyre több feltérképező robot keres az AI-ért

Perplexity AI.: Megfelelőségi problémákkal járó eset

IT Info

A Microsoft, az OpenAI Push to Dismisher kiadói szerzői jogi követelések a mesterséges intelligencia lebontásával kapcsolatban NYT-ügyben

IT Info

A SEC bepereli Elon Muskot, mert megsértette a közzétételi szabályokat a Twitter-átvételben, amely milliókba került a befektetőknek

IT Info

JAVÍTÁS: A Windows RE lemezkép nem található. (Megoldva)

A GitHub-Project felajánlja az összes ismert mesterséges intelligencia webrobot blokkolását a ROBOTS.TXT-n keresztül

Published by All Things Windows on January 14, 2025

Hogyan működik a kurátoros Robots.txt

Egyre több feltérképező robot keres az AI-ért

Perplexity AI.: Megfelelőségi problémákkal járó eset

Related Posts

IT Info

A Microsoft, az OpenAI Push to Dismisher kiadói szerzői jogi követelések a mesterséges intelligencia lebontásával kapcsolatban NYT-ügyben

IT Info

A SEC bepereli Elon Muskot, mert megsértette a közzétételi szabályokat a Twitter-átvételben, amely milliókba került a befektetőknek

IT Info

JAVÍTÁS: A Windows RE lemezkép nem található. (Megoldva)