Reddit đã đệ đơn kiện liên bang tại New York vào thứ Tư, cáo buộc công ty tìm kiếm AI Perplexity và ba nhà môi giới dữ liệu thực hiện một kế hoạch”quy mô công nghiệp”nhằm lấy cắp nội dung của công ty một cách bất hợp pháp.

Trong đơn khiếu nại của mình, Reddit cáo buộc Perplexity, với sự trợ giúp từ SerpApi, Oxylabs và AWMProxy, đã vượt qua các biện pháp bảo mật để đánh cắp các cuộc trò chuyện của người dùng trực tiếp từ Google Tìm kiếm kết quả.

Phương pháp như vậy phá vỡ các kênh cấp phép chính thức của Reddit mà các đối tác như Google và OpenAI sử dụng. Reddit tuyên bố các bị cáo đã phớt lờ lá thư yêu cầu ngừng hoạt động và vi phạm luật bản quyền, khiến cuộc chiến của ngành công nghệ leo thang về việc sử dụng hợp lý dữ liệu để đào tạo các mô hình AI.

Một’Vụ cướp ngân hàng’thông qua Google Cửa sau

Trọng tâm của cuộc tranh chấp là một phương pháp thu thập dữ liệu mới nhắm vào các trung gian của Internet—công cụ tìm kiếm—chứ không phải chính nguồn đó.

Khiếu nại của Reddit cáo buộc các bị cáo đã tạo ra các công cụ để phá vỡ các biện pháp bảo vệ chống sao chép của chính Google, cho phép họ thu thập nội dung Reddit từ các trang kết quả của công cụ tìm kiếm (SERP) trên quy mô lớn.

Vụ kiện của họ liệt kê nhiều tội danh, bao gồm cạnh tranh không lành mạnh, làm giàu bất chính và vi phạm Đạo luật bản quyền thiên niên kỷ kỹ thuật số (DMCA).

Trong một hồ sơ pháp lý đầy ngôn ngữ gây hấn, Reddit đã coi các bị cáo không chỉ là những người vi phạm quy tắc mà còn là những người tham gia vào nền kinh tế”rửa dữ liệu”.

“Các công ty AI đang bị cuốn vào một cuộc chạy đua vũ trang vì nội dung con người chất lượng-và áp lực đó đã thúc đẩy nền kinh tế’rửa dữ liệu’quy mô công nghiệp.”Các luật sư của công ty lập luận: “Theo một nghĩa rất thực tế, những Bị cáo này tương tự như những tên cướp ngân hàng, những kẻ biết rằng mình không thể đột nhập vào kho tiền ngân hàng nên đã đột nhập vào chiếc xe tải bọc thép chở tiền mặt.”

Để chứng minh cáo buộc của mình, Reddit đã tiến hành một hoạt động tấn công kỹ thuật số. Nó đã tạo một”bài đăng thử nghiệm”được định cấu hình để chỉ trình thu thập thông tin tìm kiếm của Google có thể truy cập được và không có nơi nào khác trực tuyến có thể truy cập được.

Trong vòng vài giờ, công cụ trả lời của Perplexity đã có thể tái tạo nội dung của bài đăng. Reddit khẳng định đây là bằng chứng không thể chối cãi của âm mưu này, vì cách duy nhất Perplexity có thể lấy được dữ liệu là lấy dữ liệu đó khỏi kết quả tìm kiếm của Google.

Vũ khí pháp lý chính của Reddit là DMCA. Cụ thể, nó viện dẫn Mục 1201, khiến cho việc việc vượt qua các biện pháp công nghệ kiểm soát quyền truy cập vào các tác phẩm có bản quyền là bất hợp pháp. Reddit lập luận rằng cả biện pháp bảo vệ trang web của chính họ và hệ thống SearchGuard của Google đều đủ điều kiện để áp dụng các biện pháp như vậy. Bằng cách nhắm mục tiêu hành vi gian lận, luật pháp cung cấp một công cụ mạnh mẽ để chống lại các dịch vụ cho phép thu thập dữ liệu, không chỉ những người thực hiện hành vi đó.

Bảo vệ Vương miện: Chiến lược dữ liệu hai hướng của Reddit

Nền tảng của cuộc chiến pháp lý là giá trị to lớn của kho lưu trữ khổng lồ về cuộc trò chuyện giữa con người với Reddit.

Một báo cáo gần đây từ công ty phân tích Profound đã xác nhận rằng Reddit là miền được trích dẫn nhiều nhất trên tất cả các mô hình AI chính, khiến nội dung của nó trở thành tài nguyên quan trọng để đào tạo các mô hình ngôn ngữ lớn. Kho lưu trữ trải nghiệm con người độc đáo, được cập nhật liên tục của nó là một mỏ vàng cho ngành AI cần nhiều dữ liệu.

Nhận ra điều này, Reddit đã áp dụng chiến lược hai hướng chắc chắn: kiếm tiền thông qua quan hệ đối tác và bảo vệ thông qua kiện tụng.

Công ty đã ký các thỏa thuận cấp phép dữ liệu sinh lợi với các công ty AI lớn, bao gồm cả thỏa thuận hàng năm trị giá 60 triệu đô la được báo cáo với Google và một thỏa thuận khác với OpenAI. Các thỏa thuận này thiết lập một con đường chính thức, có trả phí để truy cập nội dung của nó.

Đồng thời, Reddit cho thấy họ sẽ tích cực theo đuổi các công ty mà họ tin rằng đang sử dụng dữ liệu của mình mà không được phép.

Vụ kiện mới của Reddit diễn ra sau một hành động pháp lý tương tự được đệ trình chống lại công ty khởi nghiệp AI Anthropic vào tháng 6 năm 2025 vì cáo buộc thu thập dữ liệu không có giấy phép. Cùng với nhau, những trường hợp này báo hiệu một chính sách rõ ràng và kiên định trong việc bảo vệ dữ liệu của mình như một tài sản kinh doanh cốt lõi.

Perplexity in the Crosshairs: A Pattern of Publishing Xung đột

Trong khi Perplexity công khai ủng hộ quyền truy cập kiến ​​thức miễn phí, vụ kiện của Reddit đã vẽ ra một bức tranh về một công ty cố tình trốn tránh các quy tắc của nền tảng.

Theo đơn khiếu nại, Reddit đã gửi một lá thư yêu cầu ngừng hoạt động tới Perplexity vào tháng 5 năm 2024. Reddit cáo buộc thay vì tuân thủ, việc Perplexity sử dụng nội dung của nó đã tăng vọt, với số lượng trích dẫn tăng gấp 40 lần.

Gọi SerpApi, Oxylabs và AWMProxy là đồng phạm, vụ kiện cáo buộc họ cung cấp các phương tiện kỹ thuật để vượt qua bảo mật. Nó mô tả AWMProxy với mức độ nghiêm trọng đặc biệt, trích dẫn công việc điều tra liên kết nó với”mạng botnet cũ của Nga”Glupteba.

Chi tiết trong hồ sơ nêu rõ a bức tranh đáng kinh ngạc về quy mô hoạt động; Reddit tuyên bố rằng trong khoảng thời gian hai tuần vào tháng 7 năm 2025, các công ty thu thập dữ liệu đã truy cập trái phép gần ba tỷ trang tìm kiếm của Google có chứa nội dung của nó.

Giám đốc pháp lý của Reddit, Ben Lee, tuyên bố: “Perplexity là khách hàng sẵn lòng của ít nhất một trong những công cụ thu thập dữ liệu này, chọn mua dữ liệu bị đánh cắp thay vì ký kết một thỏa thuận hợp pháp với chính Reddit.”

Tất cả các bị cáo có tên đều có mạnh mẽ phủ nhận các cáo buộc. Trong một tuyên bố, Giám đốc Truyền thông của Perplexity, Jesse Dwyer, cho biết: “Cách tiếp cận của chúng tôi vẫn có nguyên tắc và có trách nhiệm vì chúng tôi cung cấp các câu trả lời thực tế bằng AI chính xác và chúng tôi sẽ không chấp nhận các mối đe dọa chống lại sự cởi mở và lợi ích công cộng”. tòa án.”

Giám đốc chiến lược và quản trị của Oxylabs, Denas Grybauskas, lặp lại điều này, nói rằng công ty”sẽ không ngần ngại tự bảo vệ mình trước những cáo buộc này”.

Đối với Perplexity, đây không phải là lần đầu tiên họ phải đối mặt với những cáo buộc như vậy. Công ty AI hiện đang phải vật lộn với các vụ kiện từ các nhà xuất bản lớn, bao gồm News Corp, Encyclopedia Britannica và Merriam Webster.

Công ty bảo mật web Cloudflare cáo buộc công khai việc sử dụng’trình thu thập dữ liệu lén lút’để bỏ qua các quy tắc trang web và lấy nội dung từ các trang web đã cấm nó một cách rõ ràng.

Vụ kiện mới nhất này của Reddit bổ sung thêm một thách thức pháp lý lớn khác vào vấn đề ngày càng gia tăng. liệt kê, đặt các hoạt động thu thập dữ liệu của Perplexity dưới sự giám sát chặt chẽ.

Categories: IT Info