Même Meta Plateformes n’est pas à l’abri des coûts stupéfiants de la course de l’IA. La société a passé des parties de l’année dernière à approcher des concurrents, notamment Microsoft, Amazon et d’autres, à la recherche d’une aide financière pour former ses modèles phares de grande langue LLAMA, selon quatre individus informés des discussions .

Ces ouvertures, qui auraient été surnommées le «Consortium lama», ont été motivées par l’appréhension dans Meta au sujet de l’escalade des ressources nécessaires à son développement de l’intelligence artificielle, ont déclaré deux personnes. En tant qu’édulcorant, Meta a apparemment discuté de donner aux bailleurs de fonds potentiels dans le développement des fonctionnalités futures de Llama.

Les sources suggèrent que la réaction initiale à la proposition de Meta était tiède, et il n’est pas certain que des accords de financement formels aient été conclus. Pourtant, la tentative révèle la charge financière intense impliquée dans la construction de principales systèmes d’IA, exerçant une pression même sur les entreprises avec des poches profondes de Meta et signalant les enjeux élevés en Ai. Les derniers modèles de Meta

La recherche de partenaires de financement de Meta jette sa récente annonce LLAMA 4 sous un nouveau jour. Cette version a introduit Llama 4 Scout (109b paramètres totaux, 17b actif) visant une utilisation à GPU unique avec une fenêtre de contexte de jeton de 10 millions exceptionnellement importante-capable de traiter environ 7,5 millions de mots à la fois.

Il a également dévoilé les experts plus grands LLAMA 4 (400b paramètres totaux, 17B actif, 128 experts) pour les charges de travail plus importantes. Les deux utilisent une architecture de mélange d’Experts (MOE), une technique utilisant des sous-réseaux spécialisés («experts») où seuls les nécessaires sont activés par tâche, visant une plus grande efficacité pendant le fonctionnement par rapport aux modèles denses où tous les paramètres sont toujours utilisés.

sous-tendez ceux-ci est le géant du LLAMA 4, un modèle de paramètres de 2 milliards, utilisé en interne pour la distillation (enseignant des modèles plus petits), qui nécessitait une formation sur jusqu’à 32 000 GPU. Des techniques de méta utilisées comme la précision FP8-un format de numéro de précision inférieur qui accélère les calculs-et les nouveaux composants architecturaux tels que les intérêts rotatifs rotatifs entrelacés (IROPE) pour gérer efficacement les séquences. exige d’énormes efforts de puissance de calcul et d’ingénierie, expliquant directement le besoin potentiel d’investissement partagé. Alors que le MOE offre une efficacité d’inférence potentielle, le coût d’entraînement initial reste un facteur significatif.

haies de développement et questions de données

au-delà du calcul brut, des ressources dédiées à la méta pour régler le LLAMA 4 pour les résultats et la sécurité spécifiques. La société a publiquement déclaré que son objectif était de contrer les préjugés politiques perçus dans les LLM, notant: «Il est bien connu que tous les principaux LLM ont eu des problèmes de biais-en particulier, ils se sont historiquement penchés à gauche en ce qui concerne les sujets politiques et sociaux débattus… Cela est dû aux types de données de formation disponibles sur les dispositions internes et en méta, des tests de réfus induits réduits. Parallèlement au déploiement d’outils de sécurité comme Llama Guard et le Système d’équipe rouge de chèvre-une méthode de test adversaire pour trouver des vulnérabilités. Ces couches de réglage fin et de sécurité ajoutent d’autres frais généraux de développement.

Potentiellement ajouter au calcul financier de Meta sont des questions juridiques persistantes sur ses données de formation, représentant une autre facette des défis et des coûts de développement. Des poursuites actives, dont une impliquant la comédienne Sarah Silverman, allèguent que les modèles LLAMA formés par la société sur des ensembles de données massifs de livres piratés provenant de bibliothèques comme Libgen via le partage de fichiers BitTorrent. Les documents judiciaires auraient révélé une appréhension interne, avec un ingénieur cité:”Le torrent d’un ordinateur portable [méta-constitué] ne se sent pas bien.”

Les allégations ont fait surface à la fin de la marche 2025 que META pourrait également avoir re-téléchargé une responsabilité légale à peu près 30% de ces données, affaiblir potentiellement les données sur les licenciés. De telles controverses pourraient représenter un moteur substantiel, mais moins visible, des dépenses globales de développement de l’IA.

Plays stratégiques dans un domaine compétitif

La sensibilisation du financement de Meta s’aligne sur sa stratégie claire pour rendre Llama central à ses opérations. Les modèles ont été intégrés dans les fonctionnalités Meta AI sur WhatsApp, Instagram et Facebook peu de temps après le lancement. Ils ont également été mis à disposition pour le téléchargement et via des partenaires cloud-y compris Amazon Sagemaker Jumpstart et Microson’s azure azure azure et azure et azure et azure » Databricks -bien que notamment sous une licence commerciale personnalisée, pas une licence ouverte typique. Cette stratégie de version contrôlée maintient la méta impliquée dans le déploiement de Llama, équilibrant l’ouverture avec les intérêts commerciaux.

Soulignant davantage l’accent mis par Meta sur son propre IA était son mouvement, signalé pour bloquer les fonctionnalités d’Apple Intelligence à l’échelle du système d’Apple dans les applications iOS de Meta. Cela empêche les utilisateurs d’iPhone d’utiliser des outils d’écriture AI d’Apple ou Genmoji à l’intérieur de Facebook ou Instagram, les poussant vers des alternatives basées sur Llama de Meta à la place.

Cette manœuvre compétitive s’est produite malgré les discussions plus tôt, infructueuses au milieu de 2024 sur un partenariat AI potentiel entre Meta et Apple, se terminant sur les désagréations de confidentialité. L’approche de META diffère également du modèle plus axé sur la vie privée d’Apple, souvent sur les appareils, une distinction mise en évidence par la discussion publique de Meta sur le tournage de Tuning Llama 4 et son recul simultané et controversé de la vérification des faits tiers aux États-Unis à partir de janvier 2025. href=”https://www.llama.com/events/llamacon/signup/”Target=”_ Blank”> Événement Llamacon prévu pour le 29 avril, offrant potentiellement des mises à jour sur le modèle massif de Beémoth ou le prochain modèle de vision LLAMA 4-V.

Categories: IT Info