Projekt hostowany na GitHubie oferuje wyselekcjonowany plik robots.txt, którego zadaniem jest blokowanie znanym robotom AI dostępu do zawartości witryny.

Inicjatywa o nazwie ai.robots.txt ma na celu ochronę materiałów online przed wykorzystywaniem ich do uczenia dużych modeli językowych (LLM) bez pozwolenia.

Udostępniając prosty plik zawierający listę znanych robotów AI skonfigurowanych do blokowania, projekt zachęca programistów do zapewnienia większej kontroli nad swoimi danymi i zachęca firmy zajmujące się sztuczną inteligencją do przestrzegania praktyk etycznych.

Projekt odzwierciedla rosnącą frustrację wśród programistów i wydawców związaną z nieprzejrzyste metody wykorzystywane przez systemy AI do gromadzenia danych szkoleniowych. Chociaż nie jest w stanie wyegzekwować zgodności, wybrany plik robots.txt kładzie nacisk na etyczną odpowiedzialność firm zajmujących się sztuczną inteligencją w miarę, jak ich technologie zmieniają Internet.

Jak działa wybrany plik Robots.txt

Oferowany plik robots.txt zawiera listę open source nazw agentów użytkownika powiązanych z robotami AI, pochodzącą częściowo z Dark Visitors, inicjatywy śledzącej aktywność botów.

Zachęca się programistów do przesyłania aktualizacji poprzez przesyłanie żądań ściągnięcia w GitHub, co gwarantuje, że lista będzie aktualna w przypadku pojawienia się nowych botów. Chociaż projekt opiera się na dobrowolnym przystąpieniu firm zajmujących się sztuczną inteligencją, projekt zapewnia bardzo potrzebne narzędzie właścicielom witryn, którzy chcą zarządzać sposobem uzyskiwania dostępu do ich treści i ich wykorzystywania.

Chociaż wyselekcjonowany plik robots.txt zapewnia cenne narzędzie w przypadku programistów jego skuteczność jest ograniczona poleganiem na dobrowolnym przestrzeganiu. Wiele robotów indeksujących sztuczną inteligencję działa poza granicami etycznymi przestrzeganymi przez tradycyjne roboty indeksujące, takie jak Googlebot.

Zaawansowane techniki, takie jak przeglądanie bezgłowe, które umożliwiają botom naśladowanie ludzkich zachowań, utrudniają identyfikację i blokowanie nieautoryzowanego dostępu.

Środki po stronie serwera, takie jak blokowanie adresów IP i dostosowywanie reguły zapory sieciowej, zapewniają dodatkową ochronę, ale nie są niezawodne.

Coraz więcej robotów wykorzystuje sztuczną inteligencję

Podobno robot Microsoft Bing jest szanowania pliku robots.txt ze względu na jego indeks wyszukiwania, co stało się jasne, gdy Reddit zaczął oferować swoje treści wyłącznie Google i blokować inne wyszukiwarki, takie jak Bing i DuckDuckGo. Jednakże dotyczyło to przede wszystkim przeszukiwania stron w celu wyszukiwania, a nie trenowania modeli wielkojęzycznych (LLM).

Jak pokazuje przypadek Meta, duże firmy technologiczne nie cofają się przed stosowaniem podejrzanych taktyk w celu uzyskania danych do celów ich szkolenie w zakresie sztucznej inteligencji. Według doniesień firma korzystała z nieautoryzowanych zbiorów danych zawierających pirackie książki i artykuły akademickie.

Twórcy YouTube są dotknięci w podobny sposób, jak pokazują pozwy wniesione przeciwko spółce zależnej Google i firmie Nvidia, w których zarzuca się wykorzystanie filmów bez pozwolenia na szkolenie w zakresie sztucznej inteligencji.

Perplexity AI: Sprawa dotycząca problemów ze zgodnością

Potrzeba zaawansowanego blokowania robotów indeksujących stała się szczególnie widoczna w zeszłym roku w wyniku incydentów związanych z sztuczną inteligencją Perplexity. Deweloper Robb Knight odkrył, że sztuczna inteligencja Perplexity uzyskała dostęp do treści z jego witryn internetowych, Radweb i MacStories, pomimo wyraźnych dyrektyw w pliku robots.txt i blokad po stronie serwera skonfigurowanych tak, aby zwracały odpowiedzi „403 Zabronione”.

Analiza logów serwera ujawniła że PerplexityBot stosował zwodnicze techniki w celu ominięcia ograniczeń, takie jak działanie za pośrednictwem przeglądarek bezgłowych i maskowanie swojej tożsamości za pomocą typowych ciągów agenta użytkownika, takich jak Google Chrome w systemie Windows

Te metody pozwoliły uniknąć wykrycia podczas przeglądania zastrzeżonych treści. Początkowo sztuczna inteligencja Perplexity zaprzeczyła możliwości obejścia tych ograniczeń, jednak później przyznała się do uchybień etycznych, stwierdzając: „Podsumowywanie treści objętych ograniczeniami nie powinno było mieć miejsca”.

p>

Federico Viticci z MacStories potwierdził ustalenia Knighta, wyjaśniając, że w celu zablokowania PerplexityBot wdrożono dodatkowe środki na poziomie serwera. Jednak nawet te zaawansowane zabezpieczenia nie były niezawodne, co uwypukliło trudność zapewnienia zgodności ze standardami etycznymi podczas przeszukiwania sieci.

W przypadku Perplexity AI Knight zauważył, że zakresy jej adresów IP nie odpowiadają żadnemu publicznie znanemu adresowi IP należącemu do firmy adresów, co jeszcze bardziej komplikuje wysiłki w zakresie egzekwowania prawa. Podkreśla to potrzebę solidniejszych narzędzi i ram regulacyjnych, aby sprostać wyzwaniom stawianym przez coraz bardziej wyrafinowane boty AI.

Jednak zakłopotanie nie jest osamotnione w tej praktyce, jak pokazuje rosnąca liczba pozwów dotyczących praw autorskich przeciwko twórcom sztucznej inteligencji. The New York Times jest zamieszany w kosztowny pozew przeciwko Microsoft i OpenAI w związku z kradzieżą treści.

Sprawa jest tylko jednym z przykładów większej fali niezadowolenia wśród mediów, które wzywały do ​​zaostrzenia standardów regulujących sztuczną inteligencję zbieranie danych.

Categories: IT Info