Web Infrastructure Giant Cloudflare har lansert en stor oppdatering til Internetts tre-tiår gamle regelbok for webcrawlers.
Selskapet har introdusert sin”Content Signals Policy”, en ny utvidelse for `Robots.t`-filene som gir nettstedseiere spesifikke verktøy for å tillate eller nekte PR-svaret til å få svar til å få. Utgivere og AI-selskaper, som tar for seg omfattende bekymringer for ukompensert dataskraping som truer den åpne nettets økonomiske modell.
Dette initiativet konfronterer direkte begrensningene i den opprinnelige robotenes eksklusjonsprotokoll. Først foreslått i 1994 ble `robots.txt` designet for å forhindre overbelastning av server ved å fortelle crawlers hvilke sider som skal unngå.
Det var et verktøy for å håndtere tilgang, ikke en mekanisme for å diktere hvordan skrapet innhold kan brukes etter at det faktum har gap. AI-selskaper krever enorme tropper med data for å trene sine modeller, og det åpne nettet har blitt deres primære kilde.
Dette har laget et klassisk”fri-rytterproblem”, der tech-giganter bygger verdifulle produkter ved å bruke utgiverinnhold uten å tilby henvisningstrafikken eller kompensasjonen som tradisjonelt opprettholdt online medier.
Denne trenden har vært en kilde til å dyrke alarm for online-medier.
Denne trenden har vært en kompensasjon som tradisjonelt har en kompensasjon som tradisjonelt opprettholdt online medier.
denne trenden har vært en kompensasjon som tradisjonelt opprettholdt online medier. Nyhets-/medieallians administrerende direktør Danielle Coffey fanget nylig bransjens frustrasjon, og sa:”Lenker var den siste forløsende kvaliteten på søket som ga utgivere trafikk og inntekter. Nå tar Google bare innhold med makt og bruker det uten retur.”
/dette> Konflikten er ikke bare lovlig, men teknisk. Mange AI-firmaer har blitt beskyldt for å ha ignorert `roboter.txt` helt. Cloudflare selv anklaget nylig forvirring AI for å ha brukt”stealth crawlers”for å omgå utgiverblokker, et krav perplexity nektet heftig. Disse tvistene understreker mangelen på det gamle æresystemet.
Hvordan den nye innholdet signaliserer policyen fungerer
CloudFrares innholdssignaler som er politiske forsøk på å modernisere dette systemet ved å legge til et nytt lag med spesifisitet. Det fungerer ved å integrere både menneskelig lesbare kommentarer og et nytt maskinlesbart direktiv direkte i et nettsteds `robots.txt`-fil.
Målet er å lage en entydig standard for hvordan crawlers kan bruke innhold etter tilgang til det, en distinksjon den opprinnelige protokollen aldri laget. Policyen introduserer tre distinkte signaler.
Søkets signal lar innhold brukes til å bygge en tradisjonell søkeindeks, inkludert hyperkoblinger og korte utdrag, men utelukker eksplisitt AI-genererte sammendrag. AI-Input`-signalet styrer sanntidsbruk i generative AI-svar, for eksempel gjenvinning-augmentert generasjon (RAG). Til slutt styrer `AI-Train`-signalet om innhold kan brukes til å trene eller finjustere AI-modeller. Nettstedoperatører kan uttrykke sine preferanser med en enkel, komma-avgrenset linje, for eksempel `innholdssignal: Search=ja, ai-train=nei`.
En”ja”gir tillatelse, mens en”nei”forbyr det. Avgjørende, hvis et signal er utelatt, sier policyen at nettstedseieren verken tilskudd eller begrenser tillatelse , og etterlater et nøytralt alternativ. For å oppmuntre til adopsjon har CloudFlare gitt ut policyen under en CC0-lisens og gir et generatorverktøy på contensignals.org //p>
for å gi policyen”Cloudflare’s Tekst. Opphavsrettsdirektiv.
Dette posisjonerer direktivene ikke bare som høflige forespørsler, men som juridisk betydningsfulle erklæringer fra en utgiverens intensjon.
For å fremskynde adopsjonen har CloudFlare automatisk aktivert policyen for over 3,8 millioner domener ved bruk `ai-train=nei`. Selskapet forlot bevisst `AI-Input` signalnøytral i denne utrullingen, og uttalte at det ikke ønsket å gjette kundenes preferanser for den spesifikke brukssaken. Dette trekket skaper effektivt en massiv, webskala opt-out for AI-trening som standard.
Compliance Conundum og Google-spørsmålet
Mens et betydelig trinn, er policyens suksess henger sammen med frivillig etterlevelse. I likhet med den opprinnelige protokollen er innholdssignaler rådgivende og ikke teknisk håndhevbare.
Noen dårlige aktører kan ganske enkelt ignorere de nye reglene. Dette er grunnen til at Cloudflare rammer politikken som en”reservasjon av rettigheter”, styrker en utgivers juridiske stilling.
Dette initiativet er det siste i Cloudflares eskalerende forsvar for utgivere. Selskapet lanserte tidligere”AI Labyrinth”, et verktøy for å felle ikke-kompatible roboter i labyrinter med falskt innhold, og tester”Pay Per Crawl”for å la nettsteder ta betalt for tilgang.
cloudflare ceo Matthew har ikke stoppet bullish på en visning,”du forteller meg, jeg kan stoppet på en eller por.
Et stort klistreringspunkt forblir Google. Vitnesbyrd under landemerket US v. Google Antitrust-rettssak avslørte at selskapet bruker separate bortvendte systemer for sine kjerne-søkeprodukter og dets Gemini AI-modeller.
En Google DeepMind Executive bekreftet at Content valgte å bruke Gemini-trening via”google-utvidet”AI-funksjoner og risikere å miste viktig søketrafikk, eller tillate innholdsbruk over hele linjen.
Inntil store aktører som Google enten tar i bruk den nye standarden eller tilbyr klarere, enhetlige kontroller, vil utgivere forbli fanget mellom synlighet og kontroll, og kampen for nettets fremtid vil fortsette.