Firma kineze e AI DeepSeek lëshoi një sistem të ri me burim të hapur të hënën, i krijuar për të zgjidhur një pengesë të madhe të AI: përpunimin e dokumenteve masive.

Ekipi i saj me bazë në Hangzhou zhvilloi DeepSeek-OCR, një mjet që përdor një teknikë të re”ngjeshje optike”për të kthyer tekstin nga imazhet dhe skedarët PDF në një metodë të analizuar të gjuhës me gjatësi të lartë com me dukshëm më pak fuqia llogaritëse, thuhet se ruan saktësinë 97% me një reduktim dhjetëfish të të dhënave.

Lëshimi i modelit shënon një orientim strategjik drejt efikasitetit për DeepSeek, modeli kryesor R2 i të cilit u vonua pafundësisht në fillim të këtij viti mes sfidave harduerike të lidhura me luftën teknologjike SHBA-Kinë.

I disponueshëm publikisht në platformën e zhvilluesve Përqafimi Në fytyrë, modeli i ri dhe kodi i tij sinjalizojnë një përkushtim të fortë ndaj komunitetit me burim të hapur.

Reagimet fillestare kanë qenë veçanërisht pozitive, me vëzhguesit e industrisë që sugjerojnë se implikimet e teknologjisë shkojnë shumë përtej përpunimit standard të dokumenteve.

Zgjidhja e problemit të dokumentit të gjatë me”Compression optik”

Në vend që të përpunojë tekstin dixhital me shenjë, sistemi analizon një imazh të një dokumenti dhe e konverton përmbajtjen e tij në një grup shumë efikas të”shenjave të vizionit”.

Një metodë e tillë redukton në mënyrë dramatike të dhënat që duhet të trajtojë një model gjuhësor, një sfidë kritike për aplikacionet e AI që kanë të bëjnë me hulumtime dhe raporte financiare ligjore.

Sipas në punë teknike zyrtare, sistemi është jashtëzakonisht efektiv.”Eksperimentet tregojnë se kur numri i shenjave të tekstit është brenda 10 herë më i madh se ai i shenjave të shikimit… modeli mund të arrijë saktësi dekodimi (OCR) prej 97%.”

Efikasiteti i tij arrihet përmes një arkitekture të sofistikuar. Një”DeepEncoder”i fuqishëm përpunon fillimisht imazhe me rezolucion të lartë duke përdorur komponentë nga Segment Anything Model (SAM) për analiza lokale dhe p. 16x më pas kompresori redukton në mënyrë drastike numrin e tokenit përpara se të ushqejë të dhënat në një model të specializuar gjuhësor DeepSeek-3B-MoE për dekodim.

Përfitimet e performancës nga kjo qasje janë të konsiderueshme. Në testet e standardeve, DeepSeek-OCR tejkalon konkurrentët si GOT-OCR2.0 duke përdorur vetëm 100 shenja vizioni në krahasim me 256 të këtij të fundit. Ai gjithashtu tejkalon MinerU 2.0, i cili kërkon afro 7000 tokena, duke përdorur më pak se 800 strips real,or-w> DeepSeek pretendon se një GPU e vetme Nvidia A100 mund të përpunojë mbi 200,000 faqe në ditë, duke e bërë atë një mjet të fuqishëm për ndërtimin e grupeve masive të të dhënave të nevojshme për të trajnuar inteligjencën artificiale të gjeneratës së ardhshme.

Një strumbullar strategjik pas ngecjes së problemeve harduerike Modeli R2

Përqendrimi në efikasitetin dhe aksesin me burim të hapur shënon një ndryshim të rëndësishëm strategjik për DeepSeek. Lëshimi i tij pason një periudhë të turbullt për kompaninë pasi modeli i saj i shumëpritur i arsyetimit R2 u bllokua për një kohë të pacaktuar në mesin e vitit 2025.

Ndërsa raportet fillestare ishin të ndryshme, më vonë u konfirmua se problemi kryesor ishte një dështim teknik i vazhdueshëm gjatë fazës së trajnimit.

DeepSeek 2 nuk ishte në gjendje të përfundonte një model të suksesshëm trajnimi R2 për të përfunduar një model të suksesshëm R2. Ky dështim përfaqësoi një pengesë të madhe për ambiciet e Kinës për arritjen e sovranitetit teknologjik, duke theksuar vështirësinë e jashtëzakonshme të ndërtimit të një grupi softuerësh konkurrues në harduerët vendas në zhvillim.

Kompania u detyrua të kthehej te çipat e provuar Nvidia, një lëvizje e ndërlikuar nga presioni i paqëndrueshëm i SHBA-së dhe Kinës në luftën e teknologjisë

. DeepSeek në a pozicion i vështirë konkurrues, duke krijuar një hapje për rivalët vendas si Z.ai dhe Alibaba për të fituar terren.

Ajo gjithashtu përballet me një kontroll intensiv gjeopolitik. Një raport i ashpër i Komitetit të Dhomës së Përfaqësuesve të SHBA nga prilli e quajti firmën një kërcënim për sigurinë, me kryetarin John Moolenaar duke deklaruar,”DeepSeek nuk është thjesht një aplikacion tjetër i AI-është një armë në arsenalin e Partisë Komuniste Kineze, e krijuar për të spiunuar amerikanët, për të vjedhur teknologjinë tonë dhe për të përmbysur ligjin e SHBA-së”.

Tregu konkurrues

Duke lëshuar DeepSeek-OCR si një mjet i fuqishëm me burim të hapur, kompania duket se po ekzekuton një strategji të shumëanshme për të rifituar momentin.

Një veprim i tillë angazhon drejtpërdrejt komunitetin global të zhvilluesve, duke nxitur adoptimin dhe inovacionin rreth arkitekturës së saj të re. Ai shërben gjithashtu si një demonstrim praktik i aftësive të tij kërkimore të vazhdueshme, edhe pse modeli i tij kryesor mbetet në harresë.

Lëshimi i tij pason një lëvizje tjetër agresive në shtator, kur DeepSeek uli çmimet e tij të API-ve me mbi 50% për të konkurruar në luftën e ashpër të AI-së të Kinës.

Kompjuterët Perëndimorë O CR kanë hyrë gjithashtu në hapësirën e çmimeve të AI-t. me API-të e fuqishme tregtare, fokusi i DeepSeek në ekstrem kompresimi dhe një model me burim të hapur ofron një propozim të veçantë vlere.

Ai ofron një alternativë me kosto efektive për zhvilluesit dhe kërkuesit që kanë nevojë të përpunojnë dokumente në shkallë.

Për një kompani që lundron në realitetet e ashpra të luftës globale të çipave, marrja me burim të hapur të një teknologjie të përqendruar në efikasitet është një veprim i mprehtë i rikonkurrueshëm.

kostoja dhe inovacioni, sinjalizimi se tubacioni i tij i zhvillimit është aktiv dhe i përshtatur peizazhit sfidues gjeopolitik.