Das chinesische KI-Unternehmen DeepSeek hat am Montag ein neues Open-Source-System veröffentlicht, das einen großen KI-Engpass lösen soll: die Verarbeitung riesiger Dokumente.

Das in Hangzhou ansässige Team hat DeepSeek-OCR entwickelt, ein Tool, das eine neuartige Technik der „optischen Komprimierung“ verwendet, um Text aus Bildern und PDFs in ein hochkomprimiertes Format umzuwandeln.

Mit dieser Methode können Sprachmodelle umfangreiche Dateien mit deutlich weniger Aufwand analysieren Rechenleistung, wobei Berichten zufolge eine Genauigkeit von 97 % bei einer Verzehnfachung der Datenmenge beibehalten wird.

Die Veröffentlichung des Modells markiert einen strategischen Wendepunkt in Richtung Effizienz für DeepSeek, dessen Flaggschiff-R2-Modell Anfang des Jahres aufgrund von Hardware-Herausforderungen im Zusammenhang mit dem Technologiekrieg zwischen den USA und China auf unbestimmte Zeit verschoben wurde.

Öffentlich verfügbar auf der Entwicklerplattform Hugging Face, das neue Modell und sein Code signalisieren ein starkes Engagement für die Open-Source-Community.

Die ersten Reaktionen waren ausgesprochen positiv, wobei Branchenbeobachter vermuteten, dass die Auswirkungen der Technologie weit über die Standarddokumentverarbeitung hinausgehen.

Lösung des Problems langer Dokumente mit „optischer Komprimierung“

Im Kern führt DeepSeek-OCR eine Technik ein, die das Unternehmen „ „optische Komprimierung“.

Anstatt digitalen Text Token für Token zu verarbeiten, analysiert das System ein Bild eines Dokuments und wandelt seinen Inhalt in einen hocheffizienten Satz von „Vision-Tokens“ um.

Eine solche Methode reduziert die Daten, die ein Sprachmodell verarbeiten muss, drastisch, eine entscheidende Herausforderung für KI-Anwendungen, die mit langen Inhalten wie Forschungsarbeiten, Finanzberichten und Rechtsverträgen arbeiten.

Laut dem offiziellen technischen Dokument ist das System bemerkenswert effektiv. „Experimente zeigen, dass das Modell eine Dekodierungsgenauigkeit (OCR) von 97 % erreichen kann, wenn die Anzahl der Text-Tokens nicht mehr als das Zehnfache der Anzahl der Vision-Tokens beträgt.“

Seine Effizienz wird durch eine ausgefeilte Architektur erreicht. Ein leistungsstarker „DeepEncoder“ verarbeitet zunächst hochauflösende Bilder unter Verwendung von Komponenten aus Metas Segment Anything Model (SAM) für die lokale Analyse und OpenAI’s CLIP für den globalen Kontext.

A 16x Der Kompressor reduziert dann die Token-Anzahl drastisch, bevor er die Daten zur Dekodierung an ein spezielles DeepSeek-3B-MoE-Sprachmodell weiterleitet.

Die Leistungssteigerungen durch diesen Ansatz sind erheblich. In Benchmark-Tests übertrifft DeepSeek-OCR Konkurrenten wie GOT-OCR2.0 mit nur 100 Vision-Tokens im Vergleich zu 256 Vision-Tokens. Außerdem übertrifft es MinerU 2.0, das fast 7.000 Tokens erfordert, mit weniger als 800.

Für reale Anwendungen ist der Durchsatz beeindruckend: DeepSeek behauptet, dass eine einzelne Nvidia A100-GPU mehr verarbeiten kann 200.000 Seiten pro Tag Es ist ein leistungsstarkes Tool zum Erstellen der riesigen Datensätze, die zum Trainieren der KI der nächsten Generation erforderlich sind.

Eine strategische Wende nach dem Stillstand des R2-Modells durch Hardwareprobleme

Die Konzentration auf Effizienz und Open-Source-Zugänglichkeit markiert einen bedeutenden strategischen Wandel für DeepSeek. Seine Veröffentlichung folgt auf eine turbulente Zeit für das Unternehmen, nachdem sein mit Spannung erwartetes R2-Argumentationsmodell Mitte 2025 auf unbestimmte Zeit ins Stocken geraten war.

Während die ersten Berichte unterschiedlich waren, wurde später bestätigt, dass das Kernproblem ein anhaltender technischer Fehler während der Trainingsphase war.

DeepSeek konnte einen erfolgreichen Trainingslauf für das R2-Modell mit den inländischen Ascend-Chips von Huawei nicht abschließen. Dieses Scheitern stellte einen großen Rückschlag für Chinas Ambitionen, technologische Souveränität zu erreichen, dar und verdeutlichte die enorme Schwierigkeit, einen wettbewerbsfähigen Software-Stack auf aufstrebender inländischer Hardware aufzubauen.

Das Unternehmen war gezwungen, wieder auf bewährte Nvidia-Chips zurückzugreifen, ein Schritt, der durch den volatilen Technologiekrieg zwischen den USA und China erschwert wurde.

Zusätzlich zu dem Druck hat die Hardwarekrise DeepSeek in eine schwierige Lage gebracht Dadurch entsteht eine Wettbewerbsposition, die einheimischen Rivalen wie Z.ai und Alibaba die Möglichkeit gibt, an Boden zu gewinnen.

Es steht auch vor einer intensiven geopolitischen Prüfung. In einem vernichtenden Bericht des Ausschusses des US-Repräsentantenhauses vom April wurde das Unternehmen als Sicherheitsbedrohung gebrandmarkt. Der Vorsitzende John Moolenaar erklärte: „DeepSeek ist nicht nur eine weitere KI-App – es ist eine Waffe im Arsenal der Kommunistischen Partei Chinas, die darauf ausgelegt ist, Amerikaner auszuspionieren, unsere Technologie zu stehlen und US-Recht zu untergraben.“

Open-Sourcing ein Weg nach vorne in einem wettbewerbsintensiven Markt

Durch Veröffentlichung Da es sich bei DeepSeek-OCR um ein leistungsstarkes Open-Source-Tool handelt, scheint das Unternehmen eine mehrgleisige Strategie zu verfolgen, um wieder an Dynamik zu gewinnen.

Ein solcher Schritt bindet die globale Entwicklergemeinschaft direkt ein und fördert die Akzeptanz und Innovation seiner neuen Architektur. Es dient auch als praktische Demonstration seiner laufenden Forschungskapazitäten, auch wenn sein Flaggschiffmodell noch in der Schwebe ist.

Seine Veröffentlichung folgt auf einen weiteren aggressiven Schritt im September, als DeepSeek seine API-Preise um über 50 % senkte, um im heftigen KI-Preiskampf in China bestehen zu können.

Während westliche Konkurrenten wie Mistral AI ebenfalls mit leistungsstarken kommerziellen APIs in den OCR-Bereich eingestiegen sind, liegt der Schwerpunkt von DeepSeek auf Extremen Komprimierung und ein Open-Source-Modell bieten ein klares Wertversprechen.

Es stellt eine kostengünstige Alternative für Entwickler und Forscher dar, die Dokumente in großem Maßstab verarbeiten müssen.

Für ein Unternehmen, das sich mit den harten Realitäten des globalen Chipkriegs auseinandersetzt, ist die Open-Source-Lösung einer effizienzorientierten Technologie ein kluger Schachzug.

Es ermöglicht DeepSeek, seinen Wettbewerbsvorteil bei Kosten und Innovation zurückzugewinnen, was ein Zeichen dafür ist Die Entwicklungspipeline ist aktiv und passt sich der herausfordernden geopolitischen Landschaft an.

Categories: IT Info