L’azienda cinese di intelligenza artificiale DeepSeek ha rilasciato lunedì un nuovo sistema open source progettato per risolvere un grave collo di bottiglia dell’intelligenza artificiale: l’elaborazione di documenti di grandi dimensioni.

Il suo team con sede a Hangzhou ha sviluppato DeepSeek-OCR, uno strumento che utilizza una nuova tecnica di”compressione ottica”per convertire testo da immagini e PDF in un formato altamente compresso.

Questo metodo consente ai modelli linguistici di analizzare file lunghi con tempi notevolmente inferiori. potenza di calcolo, mantenendo una precisione del 97% con una riduzione dei dati di dieci volte.

Il rilascio del modello segna un perno strategico verso l’efficienza per DeepSeek, il cui modello di punta R2 è stato ritardato a tempo indefinito all’inizio di quest’anno a causa delle sfide hardware legate alla guerra tecnologica USA-Cina.

Disponibile pubblicamente sulla piattaforma per sviluppatori Hugging Face, il nuovo modello e il suo codice segnalano un forte impegno nei confronti della comunità open source.

Le reazioni iniziali sono state particolarmente positive, con gli osservatori del settore che suggeriscono che le implicazioni della tecnologia vanno ben oltre l’elaborazione standard dei documenti.

Risolvere il problema dei documenti lunghi con la”compressione ottica”

Sostanzialmente, DeepSeek-OCR introduce una tecnica che l’azienda chiama”compressione ottica”.

Invece di elaborare il testo digitale token per token, il sistema analizza un’immagine di un documento e ne converte i contenuti in un insieme altamente efficiente di”token di visione”.

Questo metodo riduce drasticamente i dati che un modello linguistico deve gestire, una sfida critica per le applicazioni di intelligenza artificiale che gestiscono contenuti di lunga durata come documenti di ricerca, rapporti finanziari e contratti legali.

Secondo il documento tecnico ufficiale, il sistema è straordinariamente efficace.”Gli esperimenti dimostrano che quando il numero di token di testo è entro 10 volte quello dei token di visione… il modello può raggiungere una precisione di decodifica (OCR) del 97%.”

La sua efficienza è raggiunta attraverso un’architettura sofisticata. Un potente”DeepEncoder”elabora innanzitutto le immagini ad alta risoluzione utilizzando componenti del Segment Anything Model (SAM) di Meta per l’analisi locale e del CLIP di OpenAI per il contesto globale.

A 16x compressore riduce quindi drasticamente il conteggio dei token prima di fornire i dati a un modello linguistico specializzato DeepSeek-3B-MoE per la decodifica.

I guadagni in termini di prestazioni derivanti da questo approccio sono sostanziali. Nei test benchmark, DeepSeek-OCR supera concorrenti come GOT-OCR2.0 utilizzando solo 100 token di visione rispetto ai 256 di quest’ultimo. Supera anche MinerU 2.0, che richiede quasi 7.000 token, utilizzandone meno di 800.

Per le applicazioni del mondo reale, il throughput è sorprendente: DeepSeek afferma che una singola GPU Nvidia A100 può elaborare oltre 200.000 pagine al giorno, rendendolo un potente strumento per creare gli enormi set di dati necessari per addestrare l’intelligenza artificiale di prossima generazione.

Un perno strategico dopo lo stallo dell’hardware del modello R2

Concentrarsi sull’efficienza e sull’accessibilità open source segna un cambiamento strategico significativo per DeepSeek. Il suo rilascio segue un periodo turbolento per l’azienda dopo che il suo attesissimo modello di ragionamento R2 è stato bloccato a tempo indefinito a metà del 2025.

Sebbene i rapporti iniziali fossero contrastanti, è stato successivamente confermato che il problema principale era un guasto tecnico persistente durante la fase di addestramento.

DeepSeek non è stato in grado di completare con successo un ciclo di addestramento per il modello R2 utilizzando i chip Ascend domestici di Huawei. Quel fallimento ha rappresentato una grave battuta d’arresto per le ambizioni della Cina di raggiungere la sovranità tecnologica, evidenziando l’immensa difficoltà di costruire uno stack software competitivo sull’hardware nazionale emergente.

L’azienda è stata costretta a tornare ai comprovati chip Nvidia, una mossa complicata dalla volatile guerra tecnologica tra Stati Uniti e Cina.

In aggiunta alla pressione, la crisi dell’hardware ha messo DeepSeek in difficoltà. una posizione competitiva difficile, che crea un’apertura affinché rivali nazionali come Z.ai e Alibaba possano guadagnare terreno.

Si trova inoltre ad affrontare un intenso esame geopolitico. Un feroce rapporto del comitato della Camera degli Stati Uniti di aprile ha bollato l’azienda come una minaccia alla sicurezza, con il presidente John Moolenaar che ha affermato:”DeepSeek non è solo un’altra app di intelligenza artificiale: è un’arma nell’arsenale del Partito comunista cinese, progettata per spiare gli americani, rubare la nostra tecnologia e sovvertire la legge statunitense.”

Open-sourcing un percorso avanti in un mercato competitivo

Rilasciando DeepSeek-OCR è un potente strumento open source e sembra che l’azienda stia mettendo in atto una strategia su più fronti per riprendere slancio.

Tale mossa coinvolge direttamente la comunità globale degli sviluppatori, favorendo l’adozione e l’innovazione attorno alla sua nuova architettura. Serve anche come dimostrazione pratica delle sue continue capacità di ricerca, anche se il suo modello di punta rimane nel limbo.

Il suo rilascio segue un’altra mossa aggressiva di settembre, quando DeepSeek ha tagliato i prezzi delle sue API di oltre il 50% per competere nella feroce guerra dei prezzi dell’IA in Cina.

Mentre anche concorrenti occidentali come Mistral AI sono entrati nello spazio OCR con potenti API commerciali, l’attenzione di DeepSeek è focalizzata sull’estremo la compressione e un modello open source offrono una proposta di valore distinta.

Fornisce un’alternativa economicamente vantaggiosa per sviluppatori e ricercatori che hanno bisogno di elaborare documenti su larga scala.

Per un’azienda che affronta la dura realtà della guerra globale dei chip, rendere open source una tecnologia incentrata sull’efficienza è una mossa accorta.

Consente a DeepSeek di rivendicare il proprio vantaggio competitivo in termini di costi e innovazione, segnalando che il suo percorso di sviluppo è attivo e si sta adattando al difficile panorama geopolitico.

Categories: IT Info