Compania chineză de inteligență artificială DeepSeek a lansat luni un nou sistem open source conceput pentru a rezolva un blocaj major de AI: procesarea documentelor masive.
Echipa sa din Hangzhou a dezvoltat DeepSeek-OCR, un instrument care utilizează o nouă tehnică de „compresie optică” pentru a converti textul din imagini și PDF-uri într-un format foarte comprimat. putere, menținând precizia de 97% cu o reducere de zece ori a datelor.
Lansarea modelului marchează un pivot strategic către eficiență pentru DeepSeek, al cărui model emblematic R2 a fost amânat pe termen nelimitat la începutul acestui an, pe fondul provocărilor hardware legate de războiul tehnologic dintre SUA și China.
Disponibil public pe platforma pentru dezvoltatori , noul model și codul său semnalează un angajament puternic față de comunitatea open-source.
Reacțiile inițiale au fost deosebit de pozitive, observatorii din industrie sugerând că implicațiile tehnologiei depășesc cu mult procesarea standard a documentelor.
Rezolvarea problemei documentelor lungi cu „compresie optică”
Căutați tehnica de bază a companiei. „compresie optică.”
În loc să prelucreze text digital token cu token, sistemul analizează o imagine a unui document și transformă conținutul acestuia într-un set extrem de eficient de „semne de viziune.”
O astfel de metodă reduce drastic datele pe care trebuie să le gestioneze un model de limbă, o provocare critică pentru aplicațiile de inteligență artificială care se ocupă cu conținut de lungă durată, cum ar fi lucrările de cercetare, rapoartele juridice și contractele
. în documentul tehnic oficial, sistemul este remarcabil de eficient. „Experimentele arată că, atunci când numărul de jetoane text este de 10 ori mai mare decât cel al jetoanelor de viziune… modelul poate atinge o precizie de decodare (OCR) de 97%.”
Eficiența sa este atinsă printr-o arhitectură sofisticată. Un puternic „DeepEncoder” prelucrează mai întâi imagini de înaltă rezoluție utilizând componente din Segment Anything Model (SAM) de la Meta pentru analiză locală și OpenAI’s CLIP
A
pentru context global. Compresorul de 16x reduce apoi drastic numărul de simboluri înainte de a transmite datele unui model de limbaj specializat DeepSeek-3B-MoE pentru decodare.
Câștigurile de performanță din această abordare sunt substanțiale. În testele de referință, DeepSeek-OCR depășește concurenți precum GOT-OCR2.0 folosind doar 100 de jetoane de viziune în comparație cu cele 256 ale acestuia din urmă. De asemenea, depășește MinerU 2.0, care necesită aproape 7.000 de jetoane, folosind mai puțin de 800.
Pentru o singură aplicație Deep-reala este impresionantă: GPU-ul Nvidia A100 poate procesa peste 200.000 de pagini per fiecare zi, făcându-l un instrument puternic pentru construirea seturilor masive de date necesare antrenării AI de generație următoare.
Un pivot strategic după ce problemele hardware au blocat modelul R2
Concentrarea pe eficiență și accesibilitatea open-source marchează o schimbare strategică semnificativă pentru DeepSeek. Lansarea sa urmează o perioadă agitată pentru companie, după ce modelul său foarte așteptat de raționament R2 a fost blocat pe termen nelimitat la jumătatea anului 2025.
Deși rapoartele inițiale au fost variate, s-a confirmat ulterior că problema principală a fost un eșec tehnic persistent în timpul fazei de antrenament.
DeepSeek nu a reușit să finalizeze o cursă de antrenament de succes pentru modelul R2 Ascend de la Huawei. Acest eșec a reprezentat un eșec major pentru ambițiile Chinei de a obține suveranitatea tehnologică, evidențiind imensa dificultate de a construi o stivă de software competitivă pe hardware-ul autohton emergent.
Compania a fost forțată să se întoarcă la cipurile Nvidia dovedite, o mișcare complicată de volatilul dintre SUA și China. poziție competitivă, creând o deschidere pentru rivalii interni precum Z.ai și Alibaba pentru a câștiga teren.
De asemenea, se confruntă cu un control geopolitic intens. Un raport usturoi al Comisiei Camerei din SUA din aprilie a etichetat firma o amenințare la securitate, președintele John Moolenaar declarând: „DeepSeek nu este doar o altă aplicație AI – este o armă din arsenalul Partidului Comunist Chinez, concepută pentru a spiona americanii, a ne fura tehnologia și a submina legea SUA.”
Openth-Sourcing. Piață
Prin lansare DeepSeek-OCR ca instrument puternic, open-source, compania pare să execute o strategie pe mai multe direcții pentru a recâștiga impulsul.
O astfel de mișcare implică în mod direct comunitatea globală de dezvoltatori, încurajând adoptarea și inovația în jurul noii sale arhitecturi. De asemenea, servește ca o demonstrație practică a capacităților sale de cercetare în curs de desfășurare, chiar dacă modelul său emblematic rămâne în limbo.
Lansarea sa urmează o altă mișcare agresivă în septembrie, când DeepSeek și-a redus prețurile API cu peste 50% pentru a concura în războiul aprig al prețurilor AI al Chinei.
În timp ce Occidentul are concurenți puternici precum Mistral, spațiul comercial OAI, de asemenea, s-a introdus în spațiul comercial puternic OAI. DeepSeek pune accent pe compresia extremă iar un model open-source oferă o propunere de valoare distinctă.
Oferă o alternativă rentabilă pentru dezvoltatori și cercetători care trebuie să proceseze documente la scară.
Pentru o companie care navighează în realitățile dure ale războiului global de cipuri, deschiderea unei tehnologii axate pe eficiență este o mișcare inteligentă.
Permite DeepSeek să-și reclame inovația și să-și reclame costurile și inovația competitivă să-și reclame dezvoltarea. conducta este activă și se adaptează la peisajul geopolitic provocator.