Reddit presentó una demanda federal en Nueva York el miércoles, acusando a la empresa de búsqueda de inteligencia artificial Perplexity y a tres intermediarios de datos de un plan de”escala industrial”para extraer ilegalmente su contenido.

En su denuncia, Reddit alega que Perplexity, con la ayuda de SerpApi, Oxylabs y AWMProxy, eludió las medidas de seguridad para robar conversaciones de los usuarios directamente de los resultados de búsqueda de Google.

Este método elude los canales de licencias oficiales de Reddit, que utilizan socios como Google y OpenAI. Reddit afirma que los acusados ​​ignoraron una carta de cese y desistimiento y violaron la ley de derechos de autor, intensificando la batalla de la industria tecnológica sobre el uso justo de los datos para entrenar modelos de IA.

Un’atraco a un banco’A través de la puerta trasera de Google

En el centro de la disputa se encuentra un método novedoso de adquisición de datos que apunta a los intermediarios de Internet (los motores de búsqueda) en lugar de a la fuente misma.

La demanda de Reddit alega que los demandados crearon herramientas para eludir las propias protecciones anti-scraping de Google, permitiéndoles recolectar contenido de Reddit de las páginas de resultados de los motores de búsqueda (SERP) a gran escala.

Su demanda enumera múltiples cargos, incluyendo competencia desleal, enriquecimiento injusto y violaciones de la Ley de Derechos de Autor del Milenio Digital (DMCA).

En una presentación legal repleta de lenguaje combativo, Reddit ha posicionado a los acusados no sólo como infractores de las reglas sino como participantes en una economía de “lavado de datos”.

“Las empresas de inteligencia artificial están atrapadas en una carrera armamentista por contenido humano de calidad, y esa presión ha impulsado una economía de ‘lavado de datos’ a escala industrial”. Los abogados de la empresa argumentaron:”En un sentido muy real, estos acusados ​​son similares a los posibles ladrones de bancos, quienes, sabiendo que no pueden ingresar a la bóveda del banco, irrumpen en el camión blindado que transporta el efectivo”.

Para probar sus acusaciones, Reddit llevó a cabo una operación encubierta digital. Creó una”publicación de prueba”configurada para que solo pudiera acceder a ella el rastreador de búsqueda de Google y ningún otro lugar en línea.

En cuestión de horas, el motor de respuestas de Perplexity pudo reproducir el contenido de la publicación. Reddit afirma que esto es una prueba irrefutable del plan, ya que la única forma en que Perplexity podría haber obtenido los datos fue extrayéndolos de los resultados de búsqueda de Google.

La principal arma legal de Reddit es la DMCA. Específicamente, invoca la Sección 1201, que hace ilegal eludir las medidas tecnológicas que controlan el acceso a obras protegidas por derechos de autor. Reddit sostiene que tanto la protección de su propio sitio como el sistema SearchGuard de Google califican como tales medidas. Al centrarse en el acto de elusión, la ley proporciona una poderosa herramienta contra los servicios que permiten el scraping, no solo contra quienes lo realizan.

Protección de las joyas de la corona: la doble estrategia de datos de Reddit

Detrás de la batalla legal está el inmenso valor del vasto archivo de conversaciones humanas de Reddit.

Un informe reciente de la firma de análisis Profound confirmó que Reddit es el dominio más citado en todos los principales modelos de IA, lo que convierte su contenido en un recurso fundamental para entrenar modelos de lenguaje grandes. Su repositorio único y constantemente actualizado de experiencia humana es una mina de oro para la industria de la IA ávida de datos.

Reconociendo esto, Reddit ha adoptado una estrategia firme y doble: monetizar a través de asociaciones y proteger a través de litigios.

La compañía ha firmado lucrativos acuerdos de licencia de datos con los principales actores de la IA, incluido un acuerdo anual de 60 millones de dólares con Google y otro con OpenAI. Estos acuerdos establecen una vía formal y paga para acceder a su contenido.

Al mismo tiempo, Reddit ha demostrado que perseguirá agresivamente a las empresas que cree que están usando sus datos sin permiso.

Su nueva demanda sigue a una acción legal similar presentada contra la startup de inteligencia artificial Anthropic en junio de 2025 por supuesta extracción de datos sin licencia. En conjunto, estos casos señalan una política clara e inquebrantable de defender sus datos como un activo empresarial central.

Perplejidad en la mira: un patrón de conflicto entre editores

Si bien Perplejidad defiende públicamente el libre acceso al conocimiento, la demanda de Reddit muestra una imagen de una empresa que evade deliberadamente las reglas de la plataforma.

Según la denuncia, Reddit envió una carta de cese y desistimiento a Perplexity en mayo de 2024. En lugar de cumplir, alega Reddit, el uso de su contenido por parte de Perplexity aumentó, y las citaciones se multiplicaron por cuarenta.

Nombrando a SerpApi, Oxylabs y AWMProxy como co-conspiradores, la demanda los acusa de proporcionar los medios técnicos para eludir la seguridad. Describe AWMProxy con particular severidad, citando trabajo de investigación que lo vincula con la “antigua red de bots rusa” Glupteba.

Los detalles en la presentación pintan una imagen asombrosa de la escala de la operación; Reddit afirma que durante un solo período de dos semanas en julio de 2025, las empresas de scraping accedieron ilícitamente a casi tres mil millones de páginas de búsqueda de Google que contenían su contenido.

El jefe legal de Reddit, Ben Lee, declaró:”Perplexity es un cliente dispuesto de al menos uno de estos scrapers, y elige comprar datos robados en lugar de celebrar un acuerdo legal con el propio Reddit”.

Todos los nombrados Los acusados han negado enérgicamente las acusaciones. En una declaración, el jefe de comunicación de Perplexity, Jesse Dwyer, dijo:”Nuestro enfoque sigue siendo responsable y basado en principios, ya que brindamos respuestas objetivas con IA precisa, y no toleraremos amenazas contra la apertura y el interés público”.

Ryan Schafer, director de SerpApi, dijo a Adweek:”Estamos totalmente en desacuerdo con las acusaciones de Reddit y tenemos la intención de defendernos enérgicamente en tribunal.”

El Director de Gobernanza y Estrategia de Oxylabs, Denas Grybauskas, se hizo eco de esto y afirmó que la compañía”no dudará en defenderse contra estas acusaciones”.

Para Perplexity, esta no es la primera vez que se enfrenta a tales acusaciones. La empresa de inteligencia artificial ya está luchando contra demandas de importantes editoriales, incluidas News Corp, Encyclopedia Britannica y Merriam Webster.

También fue acusada públicamente por la empresa de seguridad web Cloudflare de utilizar’rastreadores sigilosos’para eludir las reglas de los sitios web y extraer contenido de sitios que lo habían prohibido explícitamente.

Esta última demanda de Reddit añade otro desafío legal importante a una lista creciente. colocando las prácticas de recopilación de datos de Perplexity bajo un intenso escrutinio.

Categories: IT Info