Det kinesiske AI-firmaet DeepSeek lanserte mandag et nytt åpen kildekode-system designet for å løse en stor AI-flaskehals: behandle massive dokumenter.

Dets Hangzhou-baserte team utviklet DeepSeek-OCR, et verktøy som bruker en ny”optisk komprimering”-teknikk for å konvertere tekst fra bilder og PDF-er til en svært lengde, språkmodell

Denne metoden gjør det mulig å analysere filer med mindre komprimert format

. databehandling kraft, som angivelig opprettholder 97 % nøyaktighet med en tidoblet reduksjon i data.

Å frigi modellen markerer en strategisk pivot mot effektivitet for DeepSeek, hvis flaggskip R2-modell ble forsinket på ubestemt tid tidligere i år på grunn av maskinvareutfordringer knyttet til teknologikrigen mellom USA og Kina.

Offentlig tilgjengelig på utviklerplattformen Huggingface.co/CR”target=”Huggingface.co/deepseekai”>Huggingface. Face, den nye modellen og dens kode signaliserer et sterkt engasjement for åpen kildekode-fellesskapet.

De første reaksjonene har vært spesielt positive, og bransjeovervåkere antyder at teknologiens implikasjoner går langt utover standard dokumentbehandling.

Løser Long-Document-problemet med’Optical Compression’

Introduserer selskapet sin a”optisk komprimering.”

I stedet for å behandle digital tekst token for token, analyserer systemet et bilde av et dokument og konverterer dets innhold til et svært effektivt sett med”vision tokens.”

En slik metode reduserer dramatisk dataene en språkmodell må håndtere, en kritisk utfordring for AI-applikasjoner som omhandler langformat innhold som forskningspapirer og juridiske kontrakter,

Accord. det offisielle tekniske papiret, er systemet bemerkelsesverdig effektivt.”Eksperimenter viser at når antallet teksttokens er innenfor 10 ganger det for synssymboler… kan modellen oppnå dekodingspresisjon (OCR) på 97 %.”

Dens effektivitet oppnås gjennom en sofistikert arkitektur. En kraftig «DeepEncoder» behandler først bilder med høy oppløsning ved å bruke komponenter fra Metas Segment Anything Model (SAM) for lokal analyse og OpenAIs CLIP for global kontekst.

. 16x kompressor reduserer deretter token-antallet drastisk før dataene sendes til en spesialisert DeepSeek-3B-MoE-språkmodell for dekoding.

Ytelsesgevinsten fra denne tilnærmingen er betydelig. I benchmark-tester overgår DeepSeek-OCR konkurrenter som GOT-OCR2.0 ved å bruke bare 100 vision-tokens sammenlignet med sistnevntes 256. Den utkonkurrerer også MinerU 2.0, som krever nesten 7000 tokens, og bruker færre enn 800.

For en gjennomgående applikasjon er slående: enkelt Nvidia A100 GPU kan behandle over 200 000 sider per dag, noe som gjør det til et kraftig verktøy for å bygge de massive datasettene som trengs for å trene neste generasjons AI.

A Strategic Pivot After Hardware Woes Stalled R2 Model

Fokusering på effektivitet og åpen kildekode-tilgjengelighet markerer et betydelig strategisk skifte for DeepSeek. Utgivelsen følger en turbulent periode for selskapet etter at den etterlengtede R2-resonneringsmodellen ble stoppet på ubestemt tid i midten av 2025.

Selv om de første rapportene var varierte, ble det senere bekreftet at kjerneproblemet var en vedvarende teknisk feil under treningsfasen.

DeepSeek var ikke i stand til å fullføre en vellykket treningsmodell for R2 As for Huaweis chip. Denne fiaskoen representerte et stort tilbakeslag for Kinas ambisjoner om å oppnå teknologisk suverenitet, og fremhevet de enorme vanskelighetene med å bygge en konkurransedyktig programvarestabel på fremvoksende innenlandsk maskinvare.

Bedriften ble tvunget til å svinge tilbake til velprøvde Nvidia-brikker, et trekk komplisert av den flyktige teknologikrigen mellom USA og Kina.

Adding to the Deek, konkurranseposisjon, noe som skaper en åpning for innenlandske rivaler som Z.ai og Alibaba til å vinne terreng.

Det står også overfor intens geopolitisk gransking. En skarp rapport fra amerikansk huskomité fra april merket firmaet som en sikkerhetstrussel, med styreleder John Moolenaar som uttalte:”DeepSeek er ikke bare en annen AI-app – det er et våpen i det kinesiske kommunistpartiets arsenal, designet for å spionere på amerikanere, stjele teknologien vår og undergrave amerikansk lov.”Marked

Ved utgivelse DeepSeek-OCR som et kraftig verktøy med åpen kildekode, ser det ut til at selskapet utfører en flerstrenget strategi for å gjenvinne momentum.

Et slikt grep engasjerer det globale utviklerfellesskapet direkte, og fremmer adopsjon og innovasjon rundt sin nye arkitektur. Den fungerer også som en praktisk demonstrasjon av dens pågående forskningsevne, selv om flaggskipmodellen forblir i limbo.

Utgivelsen følger et annet aggressivt trekk i september, da DeepSeek kuttet API-prisene sine med over 50 % for å konkurrere i Kinas voldsomme AI-priskrig.

Mens vestlige konkurrenter har også kommet inn i det kommersielle OAICR-markedet med mistrale OAICR-er. DeepSeeks fokus på Ekstrem komprimering og en åpen kildekode-modell tilbyr et tydelig verdiforslag.

Det gir et kostnadseffektivt alternativ for utviklere og forskere som trenger å behandle dokumenter i stor skala.

For et selskap som navigerer i den harde realitetene i den globale brikkekrigen, er åpen kildekode og effektivitetsfokusert teknologi et skarpt konkurransefortrinn til

Seek>. og innovasjon, signaliserer at utviklingsrørledningen er aktiv og tilpasser seg det utfordrende geopolitiske landskapet.

Categories: IT Info