Det kinesiska AI-företaget DeepSeek släppte ett nytt system med öppen källkod på måndagen utformat för att lösa en stor AI-flaskhals: bearbetning av massiva dokument.
Dess Hangzhou-baserade team utvecklade DeepSeek-OCR, ett verktyg som använder en ny”optisk komprimering”-teknik för att konvertera text från bilder och PDF-filer till en mycket långa språkmodeller
Denna metod med mindre komprimerade format
. datoranvändning kraft, enligt uppgift bibehålla 97 % noggrannhet med en tiofaldig minskning av data.
Att släppa modellen markerar en strategisk pivot mot effektivitet för DeepSeek, vars flaggskepp R2-modell försenades på obestämd tid tidigare i år på grund av hårdvaruutmaningar kopplade till teknikkriget mellan USA och Kina.
Offentligt tillgängligt på utvecklarplattformen Target-Ogging-O/deepseek-blank”> Face, den nya modellen och dess kod signalerar ett starkt engagemang för communityn med öppen källkod.
De första reaktionerna har varit särskilt positiva, med branschbevakare som tyder på att teknikens implikationer går långt utöver standarddokumentbehandling.
Lösa problemet med långa dokument med’optisk komprimering’
Istället för att behandla digital text token för token, analyserar systemet en bild av ett dokument och konverterar dess innehåll till en mycket effektiv uppsättning”vision tokens.”
En sådan metod minskar dramatiskt den data som en språkmodell måste hantera, en kritisk utmaning för AI-tillämpningar som hanterar långformigt innehåll som forskningsdokument, juridiska dokument och juridiska rapporter,
. den officiella tekniska papper är systemet anmärkningsvärt effektivt.”Experiment visar att när antalet texttokens är inom 10 gånger det för vision-tokens… kan modellen uppnå en avkodningsprecision (OCR) på 97 %.”
Dess effektivitet uppnås genom en sofistikerad arkitektur. En kraftfull”DeepEncoder”bearbetar först högupplösta bilder med hjälp av komponenter från Metas Segment Anything Model (SAM) för lokal analys och OpenAIs CLIP
A globala sammanhang.
kompressorn minskar sedan antalet token drastiskt innan data matas till en specialiserad DeepSeek-3B-MoE-språkmodell för avkodning.
Prestandavinster från detta tillvägagångssätt är betydande. I benchmark-tester överträffar DeepSeek-OCR konkurrenter som GOT-OCR2.0 med endast 100 vision-tokens jämfört med den senares 256. Den överträffar också MinerU 2.0, som kräver nästan 7 000 tokens, använder färre än 800.
För en deep-Seek-applikation som är slående: enda Nvidia A100 GPU kan bearbeta över 200 000 sidor per dag, vilket gör det till ett kraftfullt verktyg för att bygga de enorma datamängder som behövs för att träna nästa generations AI.
A Strategic Pivot After Hardware Woes Stalled R2 Model
Att fokusera på effektivitet och öppen källkods tillgänglighet markerar en betydande strategisk förändring för DeepSeek. Dess lansering följer en turbulent period för företaget efter att dess efterlängtade R2-resonemangsmodell stannade på obestämd tid i mitten av 2025.
Medan de första rapporterna varierade, bekräftades det senare att kärnproblemet var ett ihållande tekniskt misslyckande under utbildningsfasen.
DeepSeek kunde inte genomföra en framgångsrik träningskörning av R2 Asc-modellen för Huaweis inhemska kretsar. Det misslyckandet representerade ett stort bakslag för Kinas ambitioner att uppnå teknisk suveränitet, vilket belyser den enorma svårigheten att bygga en konkurrenskraftig mjukvarustapel på framväxande inhemsk hårdvara.
Företaget tvingades att svänga tillbaka till beprövade Nvidia-chips, ett drag som komplicerats av det flyktiga teknikkriget mellan USA och Kina.
konkurrensposition, vilket skapar en öppning för inhemska rivaler som Z.ai och Alibaba att vinna mark.
Det står också inför intensiv geopolitisk granskning. En svidande rapport från USA:s huskommitté från april stämplade företaget som ett säkerhetshot, där ordförande John Moolenaar sa:”DeepSeek är inte bara ännu en AI-app – det är ett vapen i det kinesiska kommunistpartiets arsenal, utformat för att spionera på amerikaner, stjäla vår teknologi och undergräva USA:s lagar.”Marknad
Genom att släppa DeepSeek-OCR som ett kraftfullt verktyg med öppen källkod, verkar företaget ha en mångsidig strategi för att återfå fart.
Ett sådant drag engagerar direkt den globala utvecklargemenskapen och främjar adoption och innovation kring dess nya arkitektur. Den fungerar också som en praktisk demonstration av dess pågående forskningskapacitet, även om dess flaggskeppsmodell förblir i limbo.
Dess lansering följer på ett annat aggressivt drag i september, när DeepSeek sänkte sina API-priser med över 50 % för att konkurrera i Kinas hårda AI-priskrig.
Medan västerländska konkurrenter har tagit sig in i det kommersiella APICR-området, har även västvärldens konkurrenter som Mistral OAICR tagit sig in i det mäktiga OAICR-området. DeepSeeks fokus på extrema komprimering och en modell med öppen källkod erbjuder ett distinkt värdeförslag.
Det ger ett kostnadseffektivt alternativ för utvecklare och forskare som behöver bearbeta dokument i stor skala.
För ett företag som navigerar i det globala chipkrigets hårda realiteter, är öppen källkod och effektivitetsfokuserad teknik ett smart drag för att få tillbaka sina kostnader. innovation, signalering att dess utvecklingspipeline är aktiv och anpassar sig till det utmanande geopolitiska landskapet.