Cloudflare cáo buộc sự bối rối của việc sử dụng các trình thu thập dữ liệu lén lút để trốn tránh các tiêu chuẩn web

Web Security khổng lồ Cloudflare đã cáo buộc công ty tìm kiếm AI PREXITY là sử dụng các trình thu thập dữ liệu lén lút lừa đảo”để bỏ qua các quy tắc trang web và nội dung cào. Trong một báo cáo, CloudFlare tuyên bố, sự bối rối che giấu các bot của mình với danh tính trình duyệt chung để bỏ qua các khối nhà xuất bản. Động thái này đánh dấu sự leo thang lớn trong cuộc chiến giữa các công ty AI và người tạo nội dung, đặt chiến lược tăng trưởng mạnh mẽ của sự khó hiểu dưới sự giám sát mạnh mẽ. href=”https://blog.cloudflare.com/perplexity-is-using-stealth-undeclared-crawlers-to-evade-website-no-crawl-directives Những người dùng này đã báo cáo rằng mặc dù thực hiện cả hai chỉ thị `robot.txt` và các quy tắc tường lửa cụ thể để chặn các trình thu thập thông tin chính thức,’Perplexitybot` và` Perplexity-user`, nội dung của họ vẫn được truy cập bởi dịch vụ AI. src=”https://winbuzzer.com/wp-content/uploads/2025/05/perplexity-pro-labs.jpg”>

Công ty bảo mật cáo buộc rằng Perplexity sử dụng cách tiếp cận hai điểm. Khi các trình thu thập dữ liệu được khai báo của nó bị chặn, công ty dường như triển khai các bot không được khai báo để mạo danh các trình duyệt web tiêu chuẩn. Các trình thu thập lén lút này đã được quan sát xoay qua các địa chỉ IP chưa niêm yết và thậm chí thay đổi các hệ thống tự trị nguồn của chúng (ASN) trong những gì CloudFlare mô tả là một nỗ lực có chủ ý để che giấu hoạt động của chúng và phá vỡ các tùy chọn của nhà xuất bản. Gecko) Chrome/124.0.0.0 Safari/537.36. Chuỗi chung này được thiết kế để hòa nhập với lưu lượng bình thường của con người từ thiết bị MacOS bằng Chrome, gây khó khăn cho việc chặn mà không có khả năng ảnh hưởng đến người dùng hợp pháp. Cloudflare lập luận hành vi này vi phạm các chỉ tiêu thu thập thông tin trên web, chẳng hạn như các quy tắc được nêu trong RFC 9309. Họ đã đăng ký các tên miền mới, chưa được khám phá mà không thể khám phá công khai và đặt tệp `robot.txt` rất hạn chế trên chúng, không cho phép tất cả các trình thu thập thông tin. Mặc dù các biện pháp phòng ngừa này, khi họ hỏi sự bối rối của AI về nội dung bí mật trên các lĩnh vực này, dịch vụ đã cung cấp các bản tóm tắt chi tiết và chính xác, cho thấy nó đã bỏ qua thành công các khối. Cloudflare lưu ý rằng hoạt động này đã được quan sát thấy trên hàng chục ngàn tên miền, lên tới hàng triệu yêu cầu mỗi ngày và họ đã sử dụng máy học để lấy dấu vân tay và theo dõi trình thu thập thông tin lảng tránh. Trong các thử nghiệm tương tự, trình thu thập thông tin của Openai, “ user-user` đã tìm nạp chính xác tệp `robot.txt` và ngừng hoạt động khi không được phép. Nó cũng được tôn trọng các khối cấp độ mạng, mà CloudFlare mô tả là phản ứng thích hợp của người dùng”cho một nhà điều hành bot được cư xử tốt hoạt động với đức tin tốt. Vào tháng 6 năm 2024, nhà phát triển Robb Knight đã ghi lại chi tiết cách công ty AI đã loại bỏ các trang web của mình, Radweb và Macstories, mặc dù anh ta thực hiện cả quy tắc `robot.txt` và các khối cấp máy chủ nghiêm ngặt hơn bằng nginx. Knight phát hiện ra bot không sử dụng định danh được khai báo, mà là một tác nhân người dùng chung để bỏ qua phòng thủ của anh ta. Vào tháng 6 năm 2025, BBC đã đe dọa hành động pháp lý đối với việc vi phạm bản quyền và tổn hại uy tín, cáo buộc sự bối rối đã tái tạo nguyên văn báo chí của nó. Perplexity đã ban hành một phản bác mạnh mẽ, gọi các yêu sách thao túng”và cáo buộc đài truyền hình cố gắng bảo vệ sự thống trị của thị trường Google. Điều này tham gia một danh sách ngày càng tăng các thách thức pháp lý từ các nhà xuất bản như New York Times và News Corp. Giám đốc điều hành của Cloudflare, Matthew Prince, đã gọi sự suy giảm lưu lượng truy cập giới thiệu từ AI tìm kiếm một mối đe dọa hiện sinh của người Hồi giáo,”tiết lộ rằng tỷ lệ các trang được nhân cách AI AI cho khách truy cập gửi lại đã tăng lên tới 60.000 trên một. Tình cảm này được lặp lại bởi Giám đốc điều hành Tin tức/Media Alliance Danielle Coffey, người đã tuyên bố, Liên kết là chất lượng tìm kiếm cuối cùng đã cung cấp cho các nhà xuất bản lưu lượng truy cập và doanh thu. Trước khi hành động mới nhất chống lại sự bối rối, công ty đã triển khai các biện pháp đối phó tinh vi. Chúng bao gồm Labyrinth của AI AI,”một công cụ lừa dối bẫy bot không tuân thủ trong mê cung nội dung giả để lãng phí tài nguyên của họ, và trả tiền cho mỗi người thu thập thông tin”, một hệ thống cho phép các trang web tính phí để truy cập bằng cách hồi sinh các quy tắc của anh ta. Bỏ qua ý tưởng rằng các công ty AI quá mạnh mẽ để dừng lại, anh ta nổi tiếng châm biếm, và bạn nói với tôi, tôi có thể ngăn chặn một số mọt sách với một tập đoàn C ở Palo alto?”Việc định giá khởi nghiệp được báo cáo đã tăng lên tới 18 tỷ đô la vào tháng 7 năm 2025, một bước nhảy lớn từ con số đầu năm 2024. Sự tăng trưởng này được thúc đẩy bởi một chiến lược mở rộng tích cực. Giám đốc điều hành Aravind Srinivas đã hứa với Comet sẽ cung cấp các cải tiến duyệt lõi mà Chrome đã vận chuyển từ lâu,”đóng khung nó như một đối tác tư tưởng của người dùng”cho người dùng.

Công ty cũng đang theo đuổi các giao dịch mua lại người dùng lớn. Một quan hệ đối tác gần đây với khổng lồ Telecom Airtel của Ấn Độ sẽ cung cấp một năm miễn phí của Perplexity Pro tới 360 triệu khách hàng, một động thái táo bạo để nắm bắt một thị trường quan trọng. Điều này tuân theo một thỏa thuận tương tự với Motorola, mặc dù điều đó bị giới hạn bởi các hợp đồng chống độc quyền của Google.

Tuy nhiên, sự mở rộng nhanh chóng này đi kèm với các mối quan tâm khác. Một cuộc kiểm toán bảo mật vào tháng 4 năm 2025 bởi Appknox đã gắn cờ các lỗ hổng quan trọng”trong Ứng dụng Android của Perplexity. Các nhà phát triển AI yêu cầu một lượng lớn dữ liệu để đào tạo các mô hình của họ, trong khi các nhà xuất bản thấy nội dung của họ được sử dụng để cung cấp dịch vụ cung cấp cho lưu lượng truy cập và doanh thu của họ. Trong khi New York Times kiện Openai, nó đồng thời ký một thỏa thuận cấp phép nội dung lớn với Amazon.

Tình huống Perplexity, gói gọn cuộc đấu tranh toàn ngành này. Nó đồng thời là một nhà đổi mới nổi tiếng đẩy ranh giới của tìm kiếm AI và một diễn viên gây tranh cãi bị buộc tội phá vỡ các giao thức web lâu dài. Kết quả của điều này và xung đột tương tự có thể sẽ xác định các quy tắc cho thế hệ tiếp theo của Internet.

Cloudflare cáo buộc sự bối rối của việc sử dụng các trình thu thập dữ liệu lén lút để trốn tránh các tiêu chuẩn web

Published by All Things Windows on August 5, 2025

IT Info

Elevenlabs vào AI Music Fray với dữ liệu được cấp phép, thách thức các đối thủ được gắn kết hợp pháp Suno và Udio

IT Info

Meta nhận thấy phải chịu trách nhiệm thu thập bất hợp pháp Dữ liệu sức khỏe của người dùng ứng dụng Flo trong bản án bảo mật mang tính bước ngoặt

IT Info

Google DeepMind tiết lộ Genie 3, AI tạo ra thế giới 3D có thể chơi được trong thời gian thực

Cloudflare cáo buộc sự bối rối của việc sử dụng các trình thu thập dữ liệu lén lút để trốn tránh các tiêu chuẩn web

Published by All Things Windows on August 5, 2025

Related Posts

IT Info

Elevenlabs vào AI Music Fray với dữ liệu được cấp phép, thách thức các đối thủ được gắn kết hợp pháp Suno và Udio

IT Info

Meta nhận thấy phải chịu trách nhiệm thu thập bất hợp pháp Dữ liệu sức khỏe của người dùng ứng dụng Flo trong bản án bảo mật mang tính bước ngoặt

IT Info

Google DeepMind tiết lộ Genie 3, AI tạo ra thế giới 3D có thể chơi được trong thời gian thực