La startup d’IA Perplexity a publié le 4 novembre un système open source qui permet pour la première fois aux plus grands modèles d’IA au monde de s’exécuter efficacement sur l’infrastructure cloud d’Amazon.
Détaillé dans un nouveau document de recherche, le système offre une alternative puissante et portable aux solutions nécessitant du matériel réseau NVIDIA spécialisé.
Une avancée technique, il offre une nouvelle voie pour le déploiement de modèles massifs comme Kimi K2 sur AWS.
Cette décision intervient alors que la société de la Silicon Valley est confrontée à des batailles juridiques croissantes avec de grandes plateformes, dont Reddit et Amazon lui-même, au sujet de ses pratiques controversées en matière de collecte de données et d’agents d’IA, créant un contraste saisissant entre ses contributions open source et ses méthodes commerciales.
Sous le capot : un portable « TransferEngine » pour unifier les réseaux d’IA
Perplexity AI a mis en open source un nouvel ensemble de noyaux de communication Mixture-of-Experts (MoE) hautes performances, rendant le code disponible dans un référentiel GitHub nommé « pplx-garden ».
Le La publication est accompagnée d’un document de recherche détaillé, désormais attribué aux employés de Perplexity, Nandor Licker, Kevin Hu, Vladimir Zaytsev et Lequn Chen, qui décrit l’architecture du système.
Les modèles du MoE nécessitent une communication clairsemée, dynamique et point à point pour acheminer les données entre différents « experts » sous-modèles, un modèle que les bibliothèques de communication collectives traditionnelles gèrent mal.
Au cœur de l’innovation se trouve une bibliothèque portable appelée « TransferEngine », conçue pour gérer les transferts de données à haut débit et à faible latence à l’aide de l’accès direct à la mémoire à distance (RDMA).
Au lieu de s’appuyer sur la technologie GPUDirect Async propriétaire de NVIDIA, qui permet à un GPU de communiquer directement avec une carte réseau mais crée du matériel Avec le verrouillage, Perplexity a opté pour une conception hôte-proxy plus flexible.
Dans ce modèle, un thread CPU dédié gère les opérations réseau au nom du GPU. Bien que cela entraîne une légère surcharge, cela rend l’ensemble du système indépendant du matériel.
En éliminant les différences entre les matériels concurrents, TransferEngine de Perplexity permet aux développeurs d’écrire du code portable et hautes performances. Son idée clé était de construire une abstraction qui ne dépend pas de la stricte livraison de données dans l’ordre garantie par les cartes ConnectX de NVIDIA.
Sa compatibilité s’étend désormais à la livraison intrinsèquement non ordonnée de l’Elastic Fabric Adapter (EFA) d’AWS, unifiant les deux réseaux principaux sous une seule interface.
Les résultats de l’entreprise sont significatifs, car les tests montrent que les nouveaux noyaux atteignent des performances de pointe.
Sur un cluster de 64 GPU doté du matériel NVIDIA ConnectX-7, le système a enregistré une latence de décodage combinée de seulement 692 microsecondes, surpassant ainsi le précédent leader du secteur, DeepEP.
Un jeu stratégique pour l’indépendance du cloud
Le lancement de cette technologie résout directement un goulot d’étranglement majeur dans déployer des modèles d’IA massifs.
Pour les clients du cloud, la possibilité d’exécuter ces modèles sans être enfermés dans un seul fournisseur de matériel représente une étape significative vers la réduction des coûts et l’augmentation de la flexibilité.
Les modèles Frontier comme le modèle Kimi K2 à mille milliards de paramètres de Moonshot AI sont trop volumineux pour une inférence à nœud unique, nécessitant des configurations multi-nœuds complexes très sensibles aux performances du réseau.
Jusqu’à présent, atteindre des performances MoE de haut niveau nécessitait en grande partie un pile NVIDIA complète, associant les GPU à ses cartes réseau ConnectX.
Le travail de Perplexity fait pour la première fois de l’EFA propriétaire d’Amazon une alternative viable et hautes performances.
Les tentatives précédentes d’utilisation de l’EFA pour ce type de charge de travail avec des bibliothèques génériques comme NVSHMEM étaient trop lentes pour être pratiques pour l’inférence de production.
Cette avancée pourrait remodeler l’économie du déploiement de l’IA à grande échelle. Il offre aux entreprises une nouvelle option puissante pour exécuter des modèles open source de pointe sur AWS sans être liées à un écosystème matériel spécifique.
Une telle décision positionne Perplexity non seulement comme une entreprise de produits destinée aux consommateurs, mais aussi comme un contributeur clé à l’infrastructure fondamentale de l’industrie de l’IA, affaiblissant potentiellement l’emprise de fer de NVIDIA sur le marché du matériel d’IA hautes performances.
Une double identité : pionnier de l’Open Source ou grattoir de données ?
Alors que l’entreprise défend ses contributions open source, elle continue de faire face à une série de contestations juridiques de la part des propriétaires de contenu.
Le moment de cette publication technique est particulièrement remarquable, arrivant le même jour que Winbuzzer a rapporté qu’Amazon avait émis une lettre de cessation exigeant que Perplexity empêche son agent Comet AI d’effectuer des achats sur son site Web.
Dans un communiqué, un porte-parole d’Amazon a déclaré: « Des applications tierces agents telles que Comet de Perplexity ont les mêmes obligations, et nous avons demandé à plusieurs reprises que Perplexity supprime Amazon de l’expérience Comet. accord légal avec Reddit lui-même. Elle crée simultanément des outils qui responsabilisent la communauté open source tout en étant accusée d’exploiter les données du Web ouvert sans autorisation.
La société semble poursuivre une double stratégie : contribuer aux biens communs d’une main tout en en tirant profit de l’autre.
Cherchant à contrer ce récit, Perplexity a récemment conclu un accord de licence pluriannuel avec Getty Images, s’engageant à attribuer correctement le contenu visuel.
Un tel accord suggère une volonté de s’engager dans des partenariats sous licence, mais cela contraste fortement avec les relations plus conflictuelles de l’entreprise ailleurs.
Une double identité, mi-champion de l’open source, mi-combattant juridique, définit le rôle à enjeux élevés de Perplexity.