Het Chinese AI-bedrijf DeepSeek heeft maandag een nieuw open-sourcesysteem uitgebracht dat is ontworpen om een groot AI-knelpunt op te lossen: het verwerken van enorme documenten.
Het in Hangzhou gevestigde team ontwikkelde DeepSeek-OCR, een tool die een nieuwe’optische compressie’-techniek gebruikt om tekst uit afbeeldingen en PDF’s om te zetten in een sterk gecomprimeerd formaat.
Deze methode maakt het mogelijk dat taalmodellen lange bestanden kunnen analyseren met aanzienlijk minder rekenkracht kracht, waarbij naar verluidt een nauwkeurigheid van 97% wordt gehandhaafd met een tienvoudige reductie in gegevens.
Het vrijgeven van het model markeert een strategische draai in de richting van efficiëntie voor DeepSeek, wiens vlaggenschip het R2-model eerder dit jaar voor onbepaalde tijd werd uitgesteld vanwege hardware-uitdagingen in verband met de technologieoorlog tussen de VS en China.
Openbaar beschikbaar op het ontwikkelaarsplatform Hugging Face, het nieuwe model en de bijbehorende code duiden op een sterke betrokkenheid bij de open-sourcegemeenschap.
De eerste reacties waren opmerkelijk positief, waarbij kijkers uit de industrie suggereren dat de implicaties van de technologie veel verder gaan dan de standaard documentverwerking.
Het probleem van lange documenten oplossen met’optische compressie’
In de kern introduceert DeepSeek-OCR een techniek die het bedrijf noemt “optische compressie.”
In plaats van digitale tekst token voor token te verwerken, analyseert het systeem een afbeelding van een document en converteert de inhoud ervan in een zeer efficiënte set van “vision tokens.”
Een dergelijke methode vermindert dramatisch de gegevens die een taalmodel moet verwerken, een cruciale uitdaging voor AI-toepassingen die zich bezighouden met lange inhoud zoals onderzoekspapers, financiële rapporten en juridische contracten.
Volgens de officieel technisch document is het systeem opmerkelijk effectief.”Experimenten tonen aan dat wanneer het aantal teksttokens binnen 10 keer dat van vision-tokens ligt… het model een decoderingsprecisie (OCR) van 97% kan bereiken.”
De efficiëntie wordt bereikt door een geavanceerde architectuur. Een krachtige “DeepEncoder” verwerkt eerst afbeeldingen met een hoge resolutie met behulp van componenten van Meta’s Segment Anything Model (SAM) voor lokale analyse en OpenAI’s CLIP voor mondiale context.
Een 16x compressor vermindert vervolgens het aantal tokens drastisch voordat de gegevens worden ingevoerd in een gespecialiseerd DeepSeek-3B-MoE-taalmodel voor decodering.
De prestatiewinst door deze aanpak is aanzienlijk. In benchmarktests overtreft DeepSeek-OCR concurrenten zoals GOT-OCR2.0 met slechts 100 vision-tokens vergeleken met de 256 van laatstgenoemde. Het presteert ook beter dan MinerU 2.0, waarvoor bijna 7.000 tokens nodig zijn, met minder dan 800.
Voor echte toepassingen is de doorvoer opvallend: DeepSeek beweert dat een enkele Nvidia A100 GPU meer dan 800 tokens kan verwerken. 200.000 pagina’s p Dit maakt het tot een krachtig hulpmiddel voor het bouwen van de enorme datasets die nodig zijn om AI van de volgende generatie te trainen.
Een strategische draai nadat hardwareproblemen het R2-model vastliepen
De focus op efficiëntie en open source-toegankelijkheid markeert een belangrijke strategische verschuiving voor DeepSeek. De release volgt op een turbulente periode voor het bedrijf nadat het langverwachte R2-redeneringsmodel medio 2025 voor onbepaalde tijd tot stilstand was gekomen.
Hoewel de eerste rapporten uiteenlopend waren, werd later bevestigd dat het kernprobleem een aanhoudend technisch falen was tijdens de trainingsfase.
DeepSeek was niet in staat een succesvolle trainingsrun voor het R2-model te voltooien met behulp van Huawei’s binnenlandse Ascend-chips. Dat falen vormde een grote tegenslag voor China’s ambities om technologische soevereiniteit te bereiken, wat de enorme moeilijkheid benadrukte van het bouwen van een concurrerende softwarestack op opkomende binnenlandse hardware.
Het bedrijf werd gedwongen terug te keren naar beproefde Nvidia-chips, een stap die gecompliceerd werd door de vluchtige technologieoorlog tussen de VS en China.
De hardwarecrisis heeft DeepSeek in een lastig parket gebracht. concurrentiepositie, waardoor er een opening ontstaat voor binnenlandse rivalen als Z.ai en Alibaba om terrein te winnen.
Het wordt ook geconfronteerd met intensief geopolitiek onderzoek. In een vernietigend rapport van het Amerikaanse Huis van Afgevaardigden uit april werd het bedrijf bestempeld als een bedreiging voor de veiligheid, waarbij voorzitter John Moolenaar verklaarde: “DeepSeek is niet zomaar een AI-app – het is een wapen in het arsenaal van de Chinese Communistische Partij, ontworpen om Amerikanen te bespioneren, onze technologie te stelen en de Amerikaanse wet te ondermijnen.”
Open-sourcen van een pad voorwaarts in een concurrerende markt
Door vrij te geven DeepSeek-OCR is een krachtige, open-source tool en het lijkt erop dat het bedrijf een veelzijdige strategie uitvoert om het momentum te herwinnen.
Een dergelijke stap is rechtstreeks van invloed op de wereldwijde ontwikkelaarsgemeenschap en bevordert de adoptie en innovatie rond de nieuwe architectuur. Het dient ook als een praktische demonstratie van zijn voortdurende onderzoekscapaciteiten, ook al blijft zijn vlaggenschipmodel in het ongewisse.
De release volgt op een nieuwe agressieve zet in september, toen DeepSeek zijn API-prijzen met meer dan 50% verlaagde om te kunnen concurreren in China’s hevige AI-prijzenoorlog.
Terwijl westerse concurrenten zoals Mistral AI ook de OCR-ruimte zijn betreden met krachtige commerciële API’s, richt DeepSeek zich op extreme compressie en een open source-model bieden een duidelijke waardepropositie.
Het biedt een kosteneffectief alternatief voor ontwikkelaars en onderzoekers die documenten op grote schaal moeten verwerken.
Voor een bedrijf dat door de harde realiteit van de wereldwijde chipoorlog moet navigeren, is het open sourcen van een op efficiëntie gerichte technologie een slimme zet.
Het stelt DeepSeek in staat zijn concurrentievoordeel op het gebied van kosten en innovatie terug te winnen, Dit geeft aan dat de ontwikkelingspijplijn actief is en zich aanpast aan het uitdagende geopolitieke landschap.