Ο γίγαντας της Cloudflare της υποδομής του διαδικτύου ξεκίνησε μια σημαντική ενημέρωση για το παλιό βιβλίο κανόνων του Διαδικτύου για το Web Crawlers. Οι εκδότες και οι εταιρείες AI, αντιμετωπίζοντας τις ευρέως διαδεδομένες ανησυχίες σχετικά με την απόξεση των μη αντισταθμισμένων δεδομένων που απειλεί το οικονομικό μοντέλο του ανοιχτού ιστού. τομείς, σηματοδοτώντας μια σημαντική μετατόπιση της συνεχιζόμενης μάχης σε σχέση με τα δεδομένα AI.
Αυτή η πρωτοβουλία αντιμετωπίζει άμεσα τους περιορισμούς του πρωτοκόλλου αποκλεισμού των αρχικών ρομπότ. Πρώτα προτάθηκε το 1994, το `robots.txt` σχεδιάστηκε για να αποτρέψει την υπερφόρτωση του διακομιστή λέγοντας crawlers ποιες σελίδες για να αποφευχθούν. χάσμα. Οι εταιρείες AI απαιτούν τεράστια troves δεδομένων για να εκπαιδεύσουν τα μοντέλα τους και ο ανοιχτός ιστός έχει γίνει η κύρια πηγή τους. Ο Διευθύνων Σύμβουλος της Συμμαχίας News/Media Alliance, Danielle Coffey, κατέλαβε πρόσφατα την απογοήτευση της βιομηχανίας, δηλώνοντας ότι”οι σύνδεσμοι ήταν η τελευταία εξαργύρωση της ποιότητας της αναζήτησης που έδωσαν στους εκδότες κυκλοφορίας και τα έσοδα.
Η σύγκρουση δεν είναι μόνο νόμιμη αλλά τεχνική. Πολλές εταιρείες AI κατηγορήθηκαν ότι αγνοούν εντελώς το robots.txt. Ο ίδιος ο Cloudflare κατηγόρησε πρόσφατα την αμηχανία AI ότι χρησιμοποιούσε”crawlers stealth”για να παρακάμψει τους εκδότες μπλοκ, μια αξίωση αμηχανία που αρνήθηκε έντονα. Αυτές οι διαφορές υπογραμμίζουν την ανεπάρκεια του παλιού συστήματος τιμής. Λειτουργεί με την ενσωμάτωση τόσο των παρατηρήσιμων ανθρωπίνων παρατηρήσεων όσο και μιας νέας οδηγίας αναγνώσιμη από μηχανές απευθείας στο αρχείο robots.txt`
. Η πολιτική εισάγει τρία διαφορετικά σήματα. Το σήμα `ai-input’διέπει τη χρήση σε πραγματικό χρόνο σε γενετικές απαντήσεις AI, όπως η γενιά της ανάκτησης (RAG). Τέλος, το σήμα `AI-Train` ελέγχει εάν το περιεχόμενο μπορεί να χρησιμοποιηθεί για την εκπαίδευση ή την τελειοποίηση των μοντέλων AI. Οι φορείς εκμετάλλευσης ιστοσελίδων μπορούν να εκφράσουν τις προτιμήσεις τους με μια απλή γραμμή με κόμμα, όπως το «Σχεδιακό Περιεχόμενο: Search=Ναι, Ai-Train=No». Βασικά, εάν παραλειφθεί ένα σήμα, η πολιτική δηλώνει ότι ο ιδιοκτήτης του ιστότοπου ούτε χορηγεί ούτε περιορίζει την άδεια , αφήνοντας μια ουδέτερη επιλογή. Για να ενθαρρυνθεί η υιοθεσία, το CloudFlare κυκλοφόρησε την πολιτική με άδεια CC0 και παρέχει ένα εργαλείο γεννήτριας στο contentsignals.org
Οδηγία.
Αυτό τοποθετεί τις οδηγίες όχι μόνο ως ευγενικές αιτήσεις αλλά ως νομικά σημαντικές δηλώσεις της πρόθεσης του εκδότη. Η εταιρεία εγκατέλειψε σκόπιμα το σήμα `ai-input’neutral σε αυτή την ανάπτυξη, δηλώνοντας ότι δεν ήθελε να μαντέψει τις προτιμήσεις των πελατών της για αυτή τη συγκεκριμένη περίπτωση χρήσης. Αυτή η κίνηση δημιουργεί αποτελεσματικά μια τεράστια, web-scale opt-out για την κατάρτιση AI από προεπιλογή. Όπως και το αρχικό πρωτόκολλο, τα σήματα περιεχομένου είναι συμβουλευτικά και όχι τεχνικά εκτελετά.
Μερικοί κακοί ηθοποιοί μπορούν απλά να αγνοήσουν τους νέους κανόνες. Αυτός είναι ο λόγος για τον οποίο η CloudFlare πλαισιώνει την πολιτική ως”κράτηση δικαιωμάτων”, ενισχύοντας τη νομική θέση ενός εκδότη.
Αυτή η πρωτοβουλία είναι η τελευταία στην κλιμάκωση της Cloudflare για τους εκδότες. Η εταιρεία ξεκίνησε προηγουμένως το”AI Labyrinth”, ένα εργαλείο για την παγίδα των μη συμμορφούμενων bots σε λαβύρινθους ψεύτικου περιεχομένου και δοκιμάζει το”Pay Per Crawl”για να αφήσει τους ιστότοπους να χρεώνουν για πρόσβαση. Το σημείο κολλητικής παραμένει το Google. Η μαρτυρία κατά τη διάρκεια του Landmark us v. Η δοκιμή Google Antitrust αποκάλυψε ότι η εταιρεία χρησιμοποιεί ξεχωριστά συστήματα εξαίρεσης για τα βασικά προϊόντα αναζήτησης και τα μοντέλα της Gemini AI. Το AI διαθέτει και κινδυνεύει να χάσει ζωτική κίνηση αναζήτησης ή να επιτρέψει τη χρήση περιεχομένου σε όλο το σκάφος.