Gjigandi i infrastrukturës në internet CloudFlare ka nisur një azhurnim të madh në rregullin e rregullimit të tre dekadës së internetit për zvarritësit në internet. dhe kompanitë e AI, duke adresuar shqetësime të gjera për scraping të të dhënave të pakompensuara që kërcënojnë modelin ekonomik të hapur të uebit. Sinjalizimi i një zhvendosjeje të konsiderueshme në betejën e vazhdueshme mbi të dhënat e AI. Propozuar për herë të parë në 1994, `robots.txt` u krijua për të parandaluar mbingarkesën e serverit duke i thënë zvarritësit se cilat faqe për të shmangur. hendek. Kompanitë e AI kërkojnë trove të mëdha të të dhënave për të trajnuar modelet e tyre, dhe ueb i hapur është bërë burimi i tyre kryesor. Drejtori i Përgjithshëm i Lajmeve/Aleancës së Mediave, Danielle Coffey kohët e fundit kapi zhgënjimin e industrisë, duke thënë,”Lidhjet ishin cilësia e fundit e shëlbimit të kërkimit që u dha botuesve trafik dhe të ardhura. Tani Google thjesht merr përmbajtje me forcë dhe e përdor atë pa kthim.”
Konflikti nuk është vetëm ligjor, por teknik. Shumë firma të AI janë akuzuar se injorojnë `robotët.txt` krejt. Vetë Cloudflare vetë akuzoi përleshje AI për përdorimin e”zvarritësve vjedhurazi”për të anashkaluar blloqet e botuesve, një pretendim përleshje e mohuar me forcë. Këto mosmarrëveshje nënvizojnë pamjaftueshmërinë e sistemit të vjetër të nderit. Ajo funksionon duke integruar të dy komentet e lexueshme nga njeriu dhe një direktivë të re të lexueshme nga makineritë direkt në skedarin `robots.txt` të një siti. Politika prezanton tre sinjale të dallueshme. Sinjali `AI-input` rregullon përdorimin në kohë reale në përgjigjet gjeneruese të AI, siç është gjenerimi i shtuar nga rikthimi (RAG). Më në fund, sinjali `AI-Train` kontrollon nëse përmbajtja mund të përdoret për të trajnuar ose rregulluar modele AI. Operatorët e faqes në internet mund të shprehin preferencat e tyre me një linjë të thjeshtë, të kufizuar me presje, siç është”përmbajtja-sinjali: kërko=po, ai-train=jo`.
një leje”po”i jep leje, ndërsa një”jo”e ndalon atë. Në mënyrë thelbësore, nëse një sinjal është hequr, politika thotë se pronari i faqes në internet as grante dhe as nuk e kufizon lejen , duke lënë një mundësi neutrale. Për të inkurajuar adoptimin, CloudFlare ka lëshuar politikën nën një licencë CC0 dhe siguron një mjet gjenerator në përmbajtja.org.org . Direktiva e të drejtave të autorit. Kompania me qëllim la sinjalin `AI-Input` neutral në këtë pjesë, duke deklaruar se nuk donte të merrte me mend preferencat e klientëve të saj për atë rast të përdorimit specifik. Kjo veprim krijon në mënyrë efektive një zgjedhje masive, në shkallë të internetit për trajnimin e AI si parazgjedhje. Ashtu si protokolli origjinal, sinjalet e përmbajtjes janë këshilluese dhe jo teknikisht të zbatueshme.
Disa aktorë të këqij thjesht mund të injorojnë rregullat e reja. Kjo është arsyeja pse CloudFlare e kornizon politikën si një”rezervim të të drejtave”, forcimin e pozicionit juridik të një botuesi. Kompania më parë nisi”AI Labyrinth”, një mjet për të bllokuar bots jo në përputhje në mazes me përmbajtje të rreme, dhe po teston”Pay për zvarritje”për të lënë faqet të ngarkojnë për qasje. Pika ngjitëse mbetet Google. Dëshmia Gjatë Landmark US v. Google Antitrust Trial zbuloi se kompania përdor sisteme të veçanta opt-out për produktet e saj thelbësore të kërkimit dhe modelet e saj të Binjakëve AI. Karakteristikat e AI të Google dhe rrezikojnë të humbasin trafikun jetësor të kërkimit, ose të lejojnë përdorimin e përmbajtjes në të gjithë bordin.