Ein auf GitHub gehostetes Projekt bietet eine kuratierte robots.txt-Datei, die dazu dient, bekannte KI-Crawler am Zugriff auf Website-Inhalte zu hindern.
Die Initiative namens ai.robots.txt zielt darauf ab, Online-Materialien zu schützen dürfen nicht ohne Genehmigung zum Trainieren großer Sprachmodelle (LLMs) verwendet werden.
Durch die Bereitstellung einer einfachen Datei, die bekannte KI-Crawler auflistet, die zum Blockieren konfiguriert sind, lädt das Projekt Entwickler ein, eine größere Kontrolle über ihre Daten zu erlangen, und ermutigt KI-Unternehmen, sich an ethische Praktiken zu halten.
Das Projekt spiegelt die wachsende Frustration unter Entwicklern und Herausgebern über die undurchsichtigen Methoden der KI wider Systeme, die zum Sammeln von Trainingsdaten verwendet werden. Auch wenn die Compliance nicht durchgesetzt werden kann, rückt ihre kuratierte robots.txt die ethische Verantwortung von KI-Unternehmen in den Mittelpunkt, wenn ihre Technologien das Internet neu gestalten.
Wie die kuratierte robots.txt funktioniert
Die angebotene robots.txt-Datei enthält eine Open-Source-Liste von Benutzeragentennamen, die mit KI-Crawlern verknüpft sind und teilweise von Dark Visitors stammen, einer Initiative, die Bot-Aktivitäten verfolgt.
Entwickler sind Wir werden dazu ermutigt, Updates beizutragen, indem wir Pull-Requests auf GitHub einreichen, um sicherzustellen, dass die Liste aktuell bleibt, wenn neue Bots auftauchen. Obwohl es auf der freiwilligen Zustimmung von KI-Unternehmen beruht, stellt das Projekt ein dringend benötigtes Tool für Websitebesitzer bereit, die verwalten möchten, wie auf ihre Inhalte zugegriffen und diese verwendet werden.
Während die kuratierte robots.txt-Datei ein wertvolles Tool darstellt Für Entwickler ist die Wirksamkeit durch die Abhängigkeit von der freiwilligen Einhaltung eingeschränkt. Viele KI-Crawler agieren außerhalb der ethischen Grenzen, die traditionelle Webcrawler wie Googlebot respektieren.
Fortschrittliche Techniken wie Headless Browsing, das es Bots ermöglicht, menschliches Verhalten nachzuahmen, erschweren die Erkennung und Blockierung unbefugter Zugriffe.
Serverseitige Maßnahmen wie IP-Blockierung und kundenspezifische Anpassungen Firewall-Regeln bieten zusätzlichen Schutz, sind aber nicht narrensicher.
Immer mehr Crawler suchen nach KI
Der Bing-Crawler von Microsoft respektiert Berichten zufolge robots.txt für seinen Suchindex, wie deutlich wurde, als Reddit begann, seine Inhalte ausschließlich Google anzubieten und andere Suchmaschinen wie Bing und DuckDuckGo zu blockieren. Dabei ging es jedoch in erster Linie um das Crawlen von Seiten für die Suche und nicht um das Training von Large Language Models (LLMs).
Wie der Fall von Meta zeigt, scheuen große Technologieunternehmen nicht davor zurück, zwielichtige Taktiken anzuwenden, um an Daten zu gelangen ihr KI-Training. Berichten zufolge hat das Unternehmen nicht autorisierte Datensätze mit Raubkopien von Büchern und wissenschaftlichen Artikeln verwendet.
YouTube-Ersteller sind in ähnlicher Weise betroffen, wie Klagen gegen die Google-Tochtergesellschaft und Nvidia zeigen, die angeblich Videos ohne Genehmigung für KI-Trainings verwendet haben.
Perplexity AI: Ein Fall mit Compliance-Problemen
Die Notwendigkeit einer erweiterten Crawling-Bot-Blockierung wurde letztes Jahr durch Vorfälle mit Perplexity AI besonders deutlich. Entwickler Robb Knight hat herausgefunden, dass Perplexity AI trotz expliziter robots.txt-Anweisungen und serverseitiger Blöcke, die so konfiguriert sind, dass sie „403 Forbidden“-Antworten zurückgeben, auf Inhalte seiner Websites Radweb und MacStories zugegriffen hat.
Eine Analyse der Serverprotokolle ergab dass PerplexityBot betrügerische Techniken verwendete, um die Einschränkungen zu umgehen, wie z. B. den Betrieb über Headless-Browser und die Verschleierung seiner Identität mit gängigen Benutzeragentenzeichenfolgen wie Google Chrome unter Windows
Diese Methoden ermöglichten es, der Erkennung beim Scraping eingeschränkter Inhalte zu entgehen. Zunächst leugnete Perplexity AI die Möglichkeit, diese Einschränkungen zu umgehen, gab jedoch später ethische Verfehlungen zu und erklärte: „Eine Zusammenfassung eingeschränkter Inhalte hätte nicht passieren dürfen.“ p>
Federico Viticci von MacStories bestätigte Knights Erkenntnisse und erklärte, dass zusätzliche Maßnahmen auf Serverebene eingesetzt wurden, um PerplexityBot zu blockieren. Allerdings waren selbst diese erweiterten Schutzmaßnahmen nicht narrensicher, was die Schwierigkeit verdeutlicht, die Einhaltung ethischer Standards beim Webcrawlen sicherzustellen.
Im Fall von Perplexity AI stellte Knight fest, dass seine IP-Bereiche mit keinem öffentlich bekannten Unternehmen übereinstimmten Adressen, was die Durchsetzungsbemühungen zusätzlich erschwert. Dies unterstreicht die Notwendigkeit robusterer Tools und regulatorischer Rahmenbedingungen, um den Herausforderungen zu begegnen, die durch immer ausgefeiltere KI-Bots entstehen.
Die Verwirrung ist in dieser Praxis jedoch nicht die Einzige, wie die zunehmende Zahl von Urheberrechtsklagen gegen KI-Entwickler zeigt. Die New York Times ist in einen teuren Rechtsstreit gegen Microsoft und OpenAI wegen Inhaltsdiebstahls verwickelt.
Der Fall ist nur ein Beispiel für eine größere Welle der Unzufriedenheit unter den Medien, die strengere Standards für die KI-Regelung gefordert haben Datenerfassung.