Cơ sở hạ tầng web khổng lồ Cloudflare đã đưa ra một bản cập nhật lớn cho cuốn sách quy tắc ba thập kỷ của Internet cho các trình thu thập thông tin web.
Công ty đã giới thiệu chính sách tín hiệu nội dung của mình Các nhà xuất bản và các công ty AI, giải quyết các mối quan tâm rộng rãi về việc loại bỏ dữ liệu không bù trừ, đe dọa mô hình kinh tế web mở. Các miền, báo hiệu một sự thay đổi đáng kể trong cuộc chiến đang diễn ra đối với dữ liệu AI. Đề xuất lần đầu tiên vào năm 1994, `robot.txt` được thiết kế để ngăn chặn quá tải máy chủ bằng cách cho biết các trang thu thập dữ liệu nào để tránh. khoảng cách. Các công ty AI yêu cầu rất nhiều dữ liệu để đào tạo các mô hình của họ và web mở đã trở thành nguồn chính của họ. Giám đốc điều hành News/Media Alliance Danielle Coffey gần đây đã nắm bắt được sự thất vọng của ngành công nghiệp, nói rằng, các liên kết là chất lượng tìm kiếm cuối cùng đã mang lại cho các nhà xuất bản lưu lượng và doanh thu. Bây giờ Google chỉ cần có nội dung và sử dụng nó.”
Xung đột không chỉ là hợp pháp mà là kỹ thuật. Nhiều công ty AI đã bị buộc tội bỏ qua `robot.txt` hoàn toàn. Bản thân Cloudflare gần đây đã bị cáo buộc AI Perplexity đã sử dụng các trình thu thập dữ liệu tàng hình”để bỏ qua các khối nhà xuất bản, một yêu sách gây bối rối kịch liệt bị từ chối. Các tranh chấp này nhấn mạnh sự không phù hợp của hệ thống danh dự cũ. Nó hoạt động bằng cách tích hợp cả nhận xét có thể đọc được của con người và một chỉ thị có thể đọc được máy mới trực tiếp vào tệp trang web `robot.txt`. Chính sách giới thiệu ba tín hiệu riêng biệt. Tín hiệu `AI input` chi phối việc sử dụng thời gian thực trong các câu trả lời của AI thế hệ, chẳng hạn như thế hệ được truy xuất (RAG). Cuối cùng, các điều khiển tín hiệu `AI-strain` cho dù nội dung có thể được sử dụng để đào tạo hoặc tinh chỉnh các mô hình AI. Các nhà khai thác trang web có thể thể hiện sở thích của họ bằng một dòng đơn giản, được phân loại bằng dấu phẩy, chẳng hạn như `Nội dung-Signal: search=Có, AI-strain=no`. Điều quan trọng, nếu tín hiệu bị bỏ qua, chính sách nói rằng chủ sở hữu trang web Không cấp phép không hạn chế , để lại tùy chọn trung tính. Để khuyến khích việc áp dụng, CloudFlare đã phát hành chính sách theo giấy phép cc0 và cung cấp một công cụ máy phát điện tại Nội dung. Chỉ thị bản quyền. Công ty đã cố tình rời khỏi tín hiệu `AI input` trung tính trong buổi giới thiệu này, nói rằng họ không muốn đoán khách hàng của mình tùy chọn cho trường hợp sử dụng cụ thể đó. Động thái này tạo ra một cách hiệu quả một sự từ chối lớn, quy mô web cho đào tạo AI theo mặc định. Giống như giao thức ban đầu, tín hiệu nội dung là tư vấn và không thể thực thi về mặt kỹ thuật.
Một số tác nhân xấu có thể chỉ đơn giản bỏ qua các quy tắc mới. Đây là lý do tại sao Cloudflare đóng khung chính sách như là một bảo lưu quyền của người Hồi giáo”, củng cố vị trí pháp lý của nhà xuất bản. Công ty trước đây đã ra mắt Lab Labyrinth,”Một công cụ để bẫy bot không tuân thủ trong mê cung của nội dung giả, và đang thử nghiệm trả tiền cho mỗi crawl”để cho các trang web tính phí để truy cập. Vẫn là Google. Lời khai trong Thử nghiệm chống độc quyền của chúng tôi về Landmark cho thấy công ty sử dụng các hệ thống từ chối riêng biệt cho các sản phẩm tìm kiếm cốt lõi và các mô hình AI Song Tử. và có nguy cơ mất lưu lượng tìm kiếm quan trọng hoặc cho phép sử dụng nội dung trên bảng.