Ang Web Infrastructure Giant CloudFlare ay naglunsad ng isang pangunahing pag-update sa three-decade-old-old rulebook ng Internet para sa mga web crawler. Ang mga publisher at mga kumpanya ng AI, na tinutugunan ang malawakang mga alalahanin sa hindi kumpletong data na nag-scrape na nagbabanta sa modelong pang-ekonomiyang bukas ng web. mga domain, nag-sign ng isang makabuluhang paglipat sa patuloy na labanan sa data ng AI. Una na iminungkahi noong 1994, ang `robots.txt` ay dinisenyo upang maiwasan ang labis na karga ng server sa pamamagitan ng pagsasabi sa mga crawler na maiiwasan ang mga pahina. Ang mga kumpanya ng AI ay nangangailangan ng malawak na troves ng data upang sanayin ang kanilang mga modelo, at ang bukas na web ay naging kanilang pangunahing mapagkukunan. Kamakailan lamang ay nakuha ng CEO ng News/Media Alliance na si Danielle Coffey ang pagkabigo sa industriya, na nagsasabi,”Ang mga link ay ang huling pagtubos ng kalidad ng paghahanap na nagbigay ng trapiko at kita ng mga publisher. Ngayon ay tumatagal lamang ang Google sa pamamagitan ng lakas at ginagamit ito nang walang pagbabalik.”

Ang salungatan ay hindi lamang ligal ngunit teknikal. Maraming mga kumpanya ng AI ang inakusahan na hindi pinapansin ang `robots.txt` sa kabuuan. Kamakailan lamang ay inakusahan ni Cloudflare ang nalilito AI ng paggamit ng”stealth crawler”upang maiiwasan ang mga bloke ng publisher, isang pag-aangkin na labis na pagkawasak na tinanggihan. Ang mga pagtatalo na ito ay binibigyang diin ang kakulangan ng lumang sistema ng karangalan. Gumagana ito sa pamamagitan ng pagsasama ng parehong mga nababasa na mga puna ng tao at isang bagong direktang nababasa ng makina nang direkta sa’robots.txt` file ng isang site. Ipinakikilala ng patakaran ang tatlong natatanging signal. Ang signal ng `AI-input` ay namamahala sa paggamit ng real-time na paggamit ng mga sagot ng AI, tulad ng pagkuha ng henerasyon na kinukuha (RAG). Sa wakas, kinokontrol ng signal ng `AI-train’kung ang nilalaman ay maaaring magamit upang sanayin o mga modelo ng AI na pinong. Ang mga operator ng website ay maaaring ipahayag ang kanilang mga kagustuhan sa isang simple, comma-delimited line, tulad ng’nilalaman-signal: search=oo, ai-train=no`. Crucially, kung ang isang signal ay tinanggal, ang patakaran ay nagsasaad na ang may-ari ng website ni mga gawad o hindi pinipigilan ang pahintulot , nag-iiwan ng isang neutral na pagpipilian. Upang hikayatin ang pag-aampon, pinakawalan ng CloudFlare ang patakaran sa ilalim ng isang lisensya ng CC0 at nagbibigay ng isang tool ng generator sa mga nilalaman ng contentsignals.org . Direktibo. Ang kumpanya ay sadyang iniwan ang neutral na signal ng `AI-input` sa rollout na ito, na nagsasabi na hindi nito nais na hulaan ang mga kagustuhan ng mga customer para sa partikular na kaso ng paggamit. Ang hakbang na ito ay epektibong lumilikha ng isang napakalaking, web-scale na opt-out para sa pagsasanay sa AI nang default. Tulad ng orihinal na protocol, ang mga signal ng nilalaman ay payo at hindi teknikal na maipapatupad.

Ang ilang masasamang aktor ay maaaring huwag pansinin ang mga bagong patakaran. Ito ang dahilan kung bakit ang Cloudflare ay nag-frame ng patakaran bilang isang”reservation of rights,”na nagpapatibay sa ligal na posisyon ng isang publisher. Nauna nang inilunsad ng kumpanya ang”AI Labyrinth,”isang tool upang ma-trap ang mga hindi sumusunod na bots sa mga mazes ng pekeng nilalaman, at sinusubukan ang”Pay per Crawl”upang hayaang ang mga site ay singilin. nananatiling google. Ang patotoo sa panahon ng landmark US v. Google Antitrust Trial ay nagsiwalat na ang kumpanya ay gumagamit ng magkahiwalay na mga opt-out system para sa mga pangunahing produkto ng paghahanap nito at kinumpirma ng mga gemini ai. I-block ang mga tampok ng AI ng Google at panganib na mawala ang mahahalagang trapiko sa paghahanap, o payagan ang paggamit ng nilalaman sa buong lupon.

Categories: IT Info