La startup de l’IA chinoise Deepseek a confirmé le 28 mai une «mise à niveau d’essai mineur» vers son modèle d’intelligence artificielle R1. Le modèle a été crucial pour élever le profil mondial de l’entreprise plus tôt dans l’année. Les utilisateurs peuvent désormais tester la version améliorée.
Deepseek a assuré que son interface API et ses méthodes d’utilisation restent inchangées, selon une annonce officielle de l’entreprise via une chaîne WECHAT de l’entreprise, notée par
Comme Deepseek R1 a été publié sous forme d’ouverture, il a également vu plusieurs modifications tierces. Perplexity AI a introduit R1 1776 comme une variante sans censure en février, car le modèle R1 d’origine comprend des mécanismes de filtrage de contenu. TNG Technology Consulting a publié son modèle Deepseek-R1t-Chimère en avril, qui vise à combiner le raisonnement de R1 avec l’efficacité du point de contrôle V3-0324 de Deepseek, qui a été publié en mars.
Deepseek a également contribué activement à Open-source AI. En avril 2025, la société a lancé une initiative open source, libérant Flashmla, un noyau de décodage de MLA efficace. Deepseek a décrit cela comme partageant «un progrès petit mais sincère». Fin avril, Deepseek a ensuite publié Deepseek-Prover-V2-671B en tant qu’un autre modèle, visant à prouver le théorème du théorème mathématique.
La société a également ouvert son système de fichiers Fire-Flyer (3FS) et, en collaboration avec une université de Tsinghua Tsinghua.
Pressions géopolitiques et réponses stratégiques
Les progrès de Deepseek se produisent au milieu de vents contraires géopolitiques intenses. Un comité sélectif américain sur le PCC en avril a qualifié l’entreprise un risque de sécurité nationale.”Ce rapport le montre clairement: Deepseek n’est pas juste une autre application d’IA-c’est une arme dans l’arsenal du Parti communiste chinois, conçu pour espionner les Américains, voler notre technologie et subvertir la loi américaine.”, A déclaré le président du comité John Moolenaar.
En réponse à ces pressions et en restrictions de matériel, en particulier à un accès supérieur à un niveau supérieur Nvidia GPUS Disté aux exportations américaines. Sur l’efficacité de calcul.
Cela implique des techniques comme l’attention latente multi-tête (MLA) et la quantification FP8, un format numérique à faible précision qui réduit les besoins de mémoire. Cette orientation d’efficacité a été validée lorsque le concurrent chinois Tencent, lors de son appel de bénéfices du quatrième trimestre 2024, a confirmé en profitant des modèles Deepseek.
Le paysage de l’IA compétitif continue de stimuler le développement de Deepseek. Les rapports d’avril ont indiqué que Deepseek accélérait le lancement de son modèle R2 de nouvelle génération, initialement prévu pour le mois de mai 2025. Le modèle R2 devrait améliorer les limitations notées précédentes de R1 dans les capacités avancées de raisonnement et de codage.