La société chinoise d’IA DeepSeek a publié lundi un nouveau système open source conçu pour résoudre un goulot d’étranglement majeur de l’IA : le traitement de documents volumineux.
Son équipe basée à Hangzhou a développé DeepSeek-OCR, un outil utilisant une nouvelle technique de « compression optique » pour convertir le texte des images et des PDF dans un format hautement compressé.
Cette méthode permet aux modèles de langage d’analyser des fichiers longs avec une puissance de calcul nettement inférieure. aurait maintenu une précision de 97 % avec une réduction de dix fois des données.
La sortie du modèle marque un tournant stratégique vers l’efficacité pour DeepSeek, dont le modèle phare R2 a été retardé indéfiniment plus tôt cette année en raison des défis matériels liés à la guerre technologique entre les États-Unis et la Chine.
Disponible publiquement sur la plate-forme de développement Hugging Face, le nouveau modèle et son code témoignent d’un engagement fort envers la communauté open source.
Les premières réactions ont été particulièrement positives, les observateurs de l’industrie suggérant que les implications de la technologie vont bien au-delà du traitement standard des documents.
Résoudre le problème des documents longs avec la « compression optique »
À la base, DeepSeek-OCR introduit une technique que l’entreprise appelle”compression optique.”
Au lieu de traiter le texte numérique jeton par jeton, le système analyse l’image d’un document et convertit son contenu en un ensemble très efficace de”jetons de vision”.
Une telle méthode réduit considérablement les données qu’un modèle de langage doit gérer, un défi crucial pour les applications d’IA traitant du contenu long comme les documents de recherche, les rapports financiers et les contrats juridiques.
Selon Selon le document technique officiel, le système est remarquablement efficace. « Les expériences montrent que lorsque le nombre de jetons de texte est 10 fois supérieur à celui des jetons de vision… le modèle peut atteindre une précision de décodage (OCR) de 97 %. »
Son efficacité est obtenue grâce à une architecture sophistiquée. Un puissant « DeepEncoder » traite d’abord les images haute résolution à l’aide de composants du Segment Anything Model (SAM) de Meta pour l’analyse locale et du CLIP d’OpenAI pour le contexte global.
A 16x Le compresseur réduit ensuite considérablement le nombre de jetons avant de transmettre les données à un modèle de langage DeepSeek-3B-MoE spécialisé pour le décodage.
Les gains de performances issus de cette approche sont substantiels. Lors des tests de référence, DeepSeek-OCR surpasse ses concurrents comme GOT-OCR2.0 en utilisant seulement 100 jetons de vision, contre 256 pour ce dernier. Il surpasse également MinerU 2.0, qui nécessite près de 7 000 jetons, en utilisant moins de 800.
Pour les applications du monde réel, le débit est frappant : DeepSeek affirme qu’un seul GPU Nvidia A100 peut traiter plus de 200 000 pages. par jour, ce qui en fait un outil puissant pour créer les ensembles de données massifs nécessaires à la formation de l’IA de nouvelle génération.
Un pivot stratégique après que les problèmes matériels ont bloqué le modèle R2
Se concentrer sur l’efficacité et l’accessibilité open source marque un changement stratégique important pour DeepSeek. Sa sortie fait suite à une période de turbulences pour l’entreprise après que son très attendu modèle de raisonnement R2 a été bloqué pour une durée indéterminée à la mi-2025.
Bien que les rapports initiaux aient été variés, il a été confirmé par la suite que le problème principal était une défaillance technique persistante pendant la phase de formation.
DeepSeek n’a pas été en mesure de mener à bien une formation réussie pour le modèle R2 en utilisant les puces Ascend nationales de Huawei. Cet échec a représenté un revers majeur pour les ambitions de la Chine d’atteindre la souveraineté technologique, soulignant l’immense difficulté de construire une pile logicielle compétitive sur du matériel national émergent.
La société a été contrainte de revenir aux puces Nvidia éprouvées, une décision compliquée par la guerre technologique instable entre les États-Unis et la Chine.
En plus de la pression, la crise matérielle a mis DeepSeek dans une situation difficile. position concurrentielle, créant une opportunité permettant à des rivaux nationaux comme Z.ai et Alibaba de gagner du terrain.
Il fait également l’objet d’un examen géopolitique intense. Un rapport cinglant du comité de la Chambre des représentants des États-Unis d’avril a qualifié l’entreprise de menace pour la sécurité, le président John Moolenaar déclarant: « DeepSeek n’est pas simplement une autre application d’IA: c’est une arme dans l’arsenal du Parti communiste chinois, conçue pour espionner les Américains, voler notre technologie et renverser la loi américaine. DeepSeek-OCR étant un outil open source puissant, la société semble exécuter une stratégie à plusieurs volets pour reprendre son élan.
Une telle démarche engage directement la communauté mondiale des développeurs, favorisant l’adoption et l’innovation autour de sa nouvelle architecture. Il sert également de démonstration pratique de ses capacités de recherche en cours, même si son modèle phare reste dans les limbes.
Sa sortie fait suite à une autre décision agressive en septembre, lorsque DeepSeek a réduit les prix de ses API de plus de 50 % pour rivaliser dans la féroce guerre des prix de l’IA en Chine.
Alors que des concurrents occidentaux comme Mistral AI sont également entrés dans l’espace OCR avec de puissantes API commerciales, DeepSeek se concentre sur l’extrême. la compression et un modèle open source offrent une proposition de valeur distincte.
Il offre une alternative rentable aux développeurs et aux chercheurs qui ont besoin de traiter des documents à grande échelle.
Pour une entreprise confrontée aux dures réalités de la guerre mondiale des puces, l’open source d’une technologie axée sur l’efficacité est une décision judicieuse.
Cela permet à DeepSeek de récupérer son avantage concurrentiel en termes de coût et d’innovation, signalant que son le pipeline de développement est actif et s’adapte au paysage géopolitique difficile.