DeepSeek, une startup chinoise d’intelligence artificielle, a pris la première place sur l’App Store américain d’Apple le week-end dernier, dépassant ChatGPT d’OpenAI en termes de téléchargements.

Cette étape importante intervient après la sortie le 20 janvier du modèle de raisonnement phare de DeepSeek, R1, qui a rapidement été reconnu pour sa capacité à rivaliser avec les systèmes d’IA avancés tout en fonctionnant avec une fraction des ressources généralement requises.

Source : Sensor Tower

DeepSeek R1 offre des performances de pointe, tout en étant en même temps censuré selon les règles du PCC.

L’essor rapide de l’application R1 reflète l’ingénierie innovante et l’utilisation stratégique par DeepSeek des GPU Nvidia H800, dont l’exportation vers la Chine est limitée en raison des sanctions américaines.

Connexe : Pourquoi les sanctions américaines pourraient avoir du mal à freiner la croissance technologique de la Chine

En développant des méthodes de formation efficaces, l’entreprise basée à Hangzhou a démontré que les progrès de l’IA sont possible même sous des contraintes géopolitiques. Cette évolution remet en question la perception de la domination américaine dans le domaine de l’intelligence artificielle et soulève des questions sur l’efficacité des restrictions à l’exportation visant à freiner les capacités technologiques de la Chine.

Construire l’IA sous restriction : une approche ingénieuse

Le modèle R1 de DeepSeek a été formé en utilisant seulement 2 048 GPU Nvidia H800 pour un coût total inférieur à 6 millions de dollars, selon un document de recherche publié par la société en décembre. 2024.

Ces GPU sont des versions intentionnellement limitées des puces H100 utilisées par des sociétés américaines comme OpenAI et Meta. Malgré les limitations matérielles, les ingénieurs de DeepSeek ont ​​développé de nouvelles techniques d’optimisation qui ont permis à R1 d’obtenir des résultats comparables à des modèles formés sur une infrastructure bien plus puissante.

Le fondateur Liang Wenfeng, ancien gestionnaire de fonds spéculatifs, a expliqué l’approche de l’entreprise lors d’une entretien avec 36Kr.”Nous devons consommer quatre fois plus de puissance de calcul pour obtenir le même effet”,

Connexe : Série DeepSeek AI Open Sources VL2 de modèles de langage de vision

Liang a déclaré: « Ce que nous devons faire, c’est continuellement réduire ces écarts. » La prévoyance de Liang en matière de stockage de GPU Nvidia avant l’entrée en vigueur des restrictions américaines a été un facteur essentiel dans la capacité de l’entreprise à innover dans des circonstances difficiles.

Les ingénieurs de DeepSeek se sont également concentrés sur la réduction de l’utilisation de la mémoire et des frais de calcul, permettant une grande précision malgré les contraintes matérielles.. Dimitris Papailiopoulos, chercheur principal au laboratoire AI Frontiers de Microsoft, a souligné l’efficacité de la conception de R1.

“Ils visaient des réponses précises plutôt que de détailler chaque étape logique, réduisant ainsi considérablement le temps de calcul tout en maintenant un haut niveau d’efficacité”, a-t-il déclaré au MIT Technology Review.

Performance Benchmarks et reconnaissance de l’industrie

Les performances de R1 ont été particulièrement bonnes sur les benchmarks techniques, obtenant des scores de 97,3 % sur MATH-500 et de 79,8 % sur AIME. 2024. Ces résultats placent R1 aux côtés de la série o1 d’OpenAI, démontrant que le modèle économe en ressources de DeepSeek peut rivaliser avec les leaders du secteur.

Au-delà de son modèle phare, DeepSeek a également publié des versions plus petites de R1 capables de fonctionner sur des systèmes grand public. Cette accessibilité a élargi l’attrait du modèle parmi les développeurs, les éducateurs et les amateurs. Sur les réseaux sociaux, les utilisateurs ont partagé des exemples de R1 gérant des tâches complexes telles que le développement Web, le codage et les mathématiques avancées. résolution de problèmes.

Connexe : Mistral AI lance Pixtral 12B pour le traitement de texte et d’images

Les réalisations de DeepSeek ont ​​suscité les éloges de personnalités éminentes du domaine de l’IA. Yann LeCun, scientifique en chef de l’IA chez Meta, a souligné le rôle de la collaboration open source dans le succès de DeepSeek. « « DeepSeek a profité de la recherche ouverte et de l’open source (par exemple, PyTorch et Llama de Meta). Ils ont proposé de nouvelles idées et les ont construites en s’appuyant sur le travail d’autres personnes.”LeCun a écrit sur LinkedIn. Parce que leur travail est publié et open source, tout le monde peut en profiter. C’est le pouvoir de la recherche ouverte et de l’open source.”

De même, Marc Andreessen, co-fondateur d’Andreessen Horowitz, a décrit R1 comme « l’une des avancées les plus étonnantes que j’ai jamais vues ». Ces approbations soulignent l’impact mondial de l’approche ingénieuse de DeepSeek en matière d’IA. développement.

Abordabilité et philosophie Open Source

Contrairement aux plates-formes propriétaires telles que ChatGPT d’OpenAI, DeepSeek a adopté une philosophie open source. les poids, les recettes de formation et la documentation du modèle R1 sont accessibles au public, permettant aux développeurs du monde entier de reproduire ou de s’appuyer sur son travail. Cette transparence a distingué DeepSeek dans une industrie souvent caractérisée par le secret.

Le prix abordable a également été un facteur clé dans la popularité de R1. L’application est gratuite et l’accès à l’API est nettement inférieur à celui des offres concurrentes. Ces stratégies de tarification, combinées aux capacités robustes du modèle, ont fait de DeepSeek une option attrayante pour les particuliers et les entreprises.

Connexe : LLaMA AI Under Fire – Ce que Meta ne dit pas Vous parler des modèles « Open Source »

Implications géopolitiques du succès de DeepSeek

La montée en puissance de DeepSeek survient à une époque de crise géopolitique accrue. tensions entre les États-Unis et la Chine, notamment dans le domaine de l’intelligence artificielle.

Depuis 2021, l’administration Biden a étendu les restrictions sur l’exportation de puces avancées vers la Chine, dans le but de limiter la capacité du pays à développer une compétitivité. Technologies d’IA. Cependant, les réalisations de DeepSeek suggèrent que de telles mesures pourraient ne pas empêcher complètement l’innovation.

Le succès de l’entreprise a suscité des débats au sein des cercles technologiques américains sur les conséquences involontaires des contrôles à l’exportation de certains dirigeants. soutiennent que ces restrictions pourraient stimuler l’innovation ingénieuse parmi les entreprises chinoises. La stratégie de Liang consistant à stocker des GPU et à se concentrer sur l’efficacité a prouvé que les contraintes peuvent stimuler la résolution créative de problèmes plutôt que de l’étouffer complètement.

Connexe : Les nouvelles règles américaines d’exportation de puces IA font face à une réaction négative de l’industrie. par Nvidia et autres

Un mouvement plus large dans l’IA chinoise

L’approche open source de DeepSeek s’aligne sur une tendance plus large de l’IA chinoise secteur. D’autres sociétés, dont Alibaba Cloud et 01.AI de Kai-Fu Lee, ont également donné la priorité aux initiatives open source ces dernières années. Liang a décrit la nécessité de combler ce qu’il appelle un « écart d’efficacité » entre les entreprises chinoises et occidentales d’IA, expliquant que les entreprises locales ont souvent besoin du double de ressources pour obtenir des résultats comparables.

Connexe : Alibaba Qwen lance le modèle d’IA de raisonnement multimodal QVQ-72B-Preview

En juillet 2024, Liang a déclaré: « Nous estimons que les meilleurs modèles nationaux et étrangers peuvent présenter un écart d’un facteur dans la structure du modèle. et la dynamique de formation Pour cette seule raison, nous devons consommer deux fois plus de puissance de calcul pour obtenir le même effet. De plus, il peut également y avoir un écart d’un facteur deux dans l’efficacité des données, c’est-à-dire que nous devons consommer deux fois plus. beaucoup de données de formation et de puissance de calcul pour obtenir le même effet. Ensemble, nous devons consommer quatre fois plus de puissance de calcul.

Son leadership a valu à DeepSeek la reconnaissance tant en Chine qu’à l’échelle internationale. En 2024, il a été invité à des réunions de haut niveau avec des responsables chinois pour discuter des stratégies visant à faire progresser les capacités d’IA du pays.

Défis et opportunités futurs

Comme DeepSeek continue d’affiner ses modèles, l’entreprise est confrontée à la fois à des opportunités et à des défis. Bien que ses réalisations aient prouvé la viabilité d’une IA économe en ressources, des questions demeurent quant à savoir si de telles approches peuvent évoluer pour rivaliser avec les investissements massifs de géants de la technologie comme OpenAI et Meta.

Dans un article publié après la sortie de DeepSeek R1. , Mark Zuckerberg, PDG de Meta, a souligné l’importance des investissements à grande échelle dans l’infrastructure de l’IA, affirmant: « Ce sera une année déterminante pour l’IA. En 2025, je m’attends à ce que Meta AI soit le principal assistant au service de plus d’un milliard de personnes, que Llama 4 devienne le principal modèle de pointe et que nous construirons un ingénieur en IA qui commencera à contribuer des quantités croissantes de code. à nos efforts de R&D. Pour cela, Meta construit un centre de données de 2 GW+ si grand qu’il couvrirait une partie importante de Manhattan.

Nous mettrons en ligne environ 1 GW de calcul en 2025 et nous terminerons l’année avec plus de 1,3 million de GPU. Nous prévoyons d’investir entre 60 et 65 milliards de dollars en investissements cette année tout en développant considérablement nos équipes d’IA, et nous disposons du capital nécessaire pour continuer à investir dans les années à venir. Il s’agit d’un effort massif qui, au cours des années à venir, stimulera nos principaux produits et activités, débloquera des innovations historiques et étendra le leadership technologique américain. Allons construire !”

Pour l’instant, le succès de DeepSeek avec R1 a démontré que l’innovation n’est pas uniquement le domaine des acteurs les mieux financés. En privilégiant l’efficacité, la transparence et l’accessibilité, l’entreprise a fait un impact durable sur l’industrie mondiale de l’IA.

Categories: IT Info