Reddit reichte am Mittwoch in New York eine Bundesklage ein und beschuldigte das KI-Suchunternehmen Perplexity und drei Datenbroker eines „industriellen“ Plans zur unrechtmäßigen Auslese seiner Inhalte.
In seiner Klage behauptet Reddit, Perplexity habe mit Hilfe von SerpApi, Oxylabs und AWMProxy Sicherheitsmaßnahmen umgangen, um Benutzerkonversationen direkt aus den Google-Suchergebnissen zu stehlen.
Eine solche Methode umgeht die offiziellen Lizenzkanäle von Reddit, die Partner wie Google und OpenAI nutzen. Reddit behauptet, die Angeklagten hätten eine Unterlassungserklärung ignoriert und gegen das Urheberrecht verstoßen, was den Kampf der Technologiebranche um die faire Nutzung von Daten für das Training von KI-Modellen eskalierte.
Ein „Banküberfall“ durch Googles Hintertür
Im Mittelpunkt des Streits steht eine neuartige Methode der Datenerfassung, die auf die Vermittler des Internets – Suchmaschinen – und nicht auf die Quelle selbst abzielt.
Die Klage von Reddit wirft den Beklagten vor, Tools entwickelt zu haben, um Googles eigenen Anti-Scraping-Schutz zu umgehen und es ihnen zu ermöglichen, in großem Umfang Reddit-Inhalte von Suchmaschinen-Ergebnisseiten (SERPs) zu sammeln.
In der Klage werden mehrere Anklagepunkte aufgeführt, darunter unlauterer Wettbewerb, ungerechtfertigte Bereicherung und Verstöße gegen den Digital Millennium Copyright Act (DMCA).
In einer Klageschrift voller kämpferischer Sprache hat Reddit die Angeklagten nicht nur als Regelverstöße, sondern als Teilnehmer einer „Datenwäsche“-Wirtschaft positioniert.
„KI-Unternehmen befinden sich in einem Wettrüsten um hochwertige menschliche Inhalte – und dieser Druck hat eine ‚Datenwäsche‘-Wirtschaft im industriellen Maßstab angeheizt.“ Unternehmensanwälte argumentierten: „Im wahrsten Sinne des Wortes ähneln diese Angeklagten potenziellen Bankräubern, die, obwohl sie wissen, dass sie nicht in den Tresorraum der Bank gelangen können, stattdessen in den gepanzerten Lastwagen mit dem Bargeld einbrechen.“
Um seine Anschuldigungen zu beweisen, führte Reddit eine digitale verdeckte Operation durch. Es wurde ein „Testbeitrag“ erstellt, der so konfiguriert war, dass er nur für den Suchcrawler von Google und nirgendwo anders online zugänglich war.
Innerhalb weniger Stunden konnte die Antwortmaschine von Perplexity den Inhalt des Beitrags reproduzieren. Reddit behauptet, dies sei ein unwiderlegbarer Beweis für den Plan, da Perplexity die Daten nur hätte erhalten können, indem sie sie aus den Suchergebnissen von Google entfernt hätten.
Reddits wichtigste rechtliche Waffe ist der DMCA. Insbesondere beruft es sich auf Abschnitt 1201, der es illegal macht, technische Maßnahmen zu umgehen, die den Zugang zu urheberrechtlich geschützten Werken kontrollieren. Reddit argumentiert, dass sowohl die eigenen Website-Schutzmaßnahmen als auch das SearchGuard-System von Google als solche Maßnahmen gelten. Durch die gezielte Bekämpfung von Umgehungshandlungen bietet das Gesetz ein wirksames Instrument gegen Dienste, die Scraping ermöglichen, und nicht nur gegen diejenigen, die es durchführen.
Schutz der Kronjuwelen: Reddits zweigleisige Datenstrategie
Der Rechtsstreit liegt dem immensen Wert des umfangreichen Archivs menschlicher Konversationen von Reddit zugrunde.
Ein aktueller Bericht des Analyseunternehmens Profound bestätigte, dass Reddit dies tut die am häufigsten zitierte Domäne aller wichtigen KI-Modelle, was ihren Inhalt zu einer entscheidenden Ressource für das Training großer Sprachmodelle macht. Sein einzigartiger, ständig aktualisierter Speicher menschlicher Erfahrungen ist eine Goldgrube für die datenhungrige KI-Branche.
Reddit hat dies erkannt und eine feste, zweigleisige Strategie verfolgt: Monetarisierung durch Partnerschaft und Schutz durch Rechtsstreitigkeiten.
Das Unternehmen hat lukrative Datenlizenzverträge mit großen KI-Akteuren unterzeichnet, darunter angeblich einen Jahresvertrag über 60 Millionen US-Dollar mit Google und einen weiteren mit OpenAI. Diese Vereinbarungen etablieren einen formellen, kostenpflichtigen Weg zu seinen Inhalten.
Gleichzeitig hat Reddit gezeigt, dass es aggressiv gegen Unternehmen vorgehen wird, von denen es glaubt, dass sie seine Daten ohne Erlaubnis nutzen.
Die neue Klage folgt auf eine ähnliche Klage, die im Juni 2025 gegen das KI-Startup Anthropic wegen angeblicher unlizenzierter Datenentnahme eingereicht wurde. Zusammengenommen signalisieren diese Fälle eine klare und unerschütterliche Politik der Verteidigung seiner Daten als zentrales Geschäftsvermögen.
Perplexity im Fadenkreuz: Ein Muster von Verlagskonflikten
Während Perplexity öffentlich den freien Zugang zu Wissen befürwortet, zeichnet die Klage von Reddit das Bild eines Unternehmens, das sich bewusst den Regeln der Plattform entzieht.
Der Beschwerde zufolge reddit schickte im Mai 2024 eine Unterlassungserklärung an Perplexity. Statt dieser Folge zu leisten, behauptet Reddit, sei die Nutzung seiner Inhalte durch Perplexity sprunghaft angestiegen, und die Zitate seien um das Vierzigfache gestiegen.
In der Klage werden SerpApi, Oxylabs und AWMProxy als Mitverschwörer genannt und ihnen vorgeworfen, die technischen Mittel zur Umgehung der Sicherheit bereitgestellt zu haben. Es beschreibt AWMProxy mit besonderer Schärfe und zitiert Ermittlungsarbeiten, die es mit dem „ehemaligen russischen Botnetz“ Glupteba in Verbindung bringen.
Einzelheiten in der Akte a atemberaubendes Bild vom Ausmaß der Operation; Reddit behauptet, dass die Scraping-Firmen in einem einzigen zweiwöchigen Zeitraum im Juli 2025 illegal auf fast drei Milliarden Google-Suchseiten zugegriffen haben, die deren Inhalte enthielten.
Reddits Rechtschef Ben Lee erklärte: „Perplexity ist ein williger Kunde von mindestens einem dieser Scraper und hat sich dafür entschieden, gestohlene Daten zu kaufen, anstatt eine rechtmäßige Vereinbarung mit Reddit selbst einzugehen.“
Alle genannten Angeklagten haben dies gewaltsam getan bestritt die Vorwürfe. Jesse Dwyer, Leiter Kommunikation bei Perplexity, sagte in einer Erklärung: „Unser Ansatz bleibt prinzipiell und verantwortungsbewusst, da wir sachliche Antworten mit präziser KI liefern, und wir werden keine Bedrohungen gegen die Offenheit und das öffentliche Interesse tolerieren.“
Ryan Schafer, ein Direktor bei SerpApi, sagte gegenüber Adweek: „Wir stimmen den Behauptungen von Reddit überhaupt nicht zu und beabsichtigen, uns energisch zu verteidigen.“ Denas Grybauskas, Chief Governance and Strategy Officer von Oxylabs, bestätigte dies und erklärte, das Unternehmen „wird nicht zögern, sich gegen diese Anschuldigungen zu verteidigen“.
Für Perplexity ist dies nicht das erste Mal, dass es mit solchen Anschuldigungen konfrontiert wird. Das KI-Unternehmen kämpft bereits mit Klagen großer Verlage, darunter News Corp, Encyclopedia Britannica und Merriam Webster.
Das Web-Sicherheitsunternehmen Cloudflare beschuldigte das Unternehmen außerdem öffentlich, „Stealth-Crawler“ zu verwenden, um Website-Regeln zu umgehen und Inhalte von Websites zu entfernen, die dies ausdrücklich verboten hatten.
Diese jüngste Klage von Reddit fügt einer wachsenden Liste eine weitere große rechtliche Herausforderung hinzu. Die Datenerfassungspraktiken von Perplexity werden einer intensiven Prüfung unterzogen.