La startup d’inférence AI Groq a lancé une campagne agressive pour contester la domination des géants du cloud comme Amazon Web Services et Google, mettant sa technologie de traitement spécialisée à grande vitesse directement disponible pour des millions de développeurs grâce à un nouveau partenariat avec la plate-forme Face Hugging. Cette décision vise à remodeler le paysage de l’IA en offrant un accès généralisé à une inférence plus rapide et à moindre coût, une étape critique dans le déploiement des applications d’intelligence artificielle.
L’intégration stratégique avec les signaux de visage étreintes un défi direct vers les services établis tels que AWS Bedrock et Google Vertex AI, passant la concurrence du matériel arrière à une bataille basée sur la plate-forme pour les développeurs. Une déclaration conjointe des sociétés a souligné l’objectif, déclarant: «Cette collaboration entre le visage étreint et le GROQ est un pas en avant significatif dans la rendez-vous plus accessible et efficace. L’intégration de sa technologie où les développeurs fonctionnent déjà, GROQ parie qu’il peut se tailler une part de marché importante dans un secteur qui devrait valoir plus de 154 milliards de dollars d’ici 2030.
Une nouvelle architecture pour la vitesse
au cœur de la stratégie de Groq est sa Architecture de traitement du langage personnalisé (LPU) , une puce conçue spécifiquement pour les demandes de l’inférence AI (LPU). Contrairement aux GPU les plus polyvalents qui alimentent une grande partie de l’industrie de l’IA, les LPU de GROQ possèdent une conception fondamentalement différente qui coloque le calcul et la mémoire sur la puce. Cela élimine les goulots d’étranglement de bande passante de mémoire externe qui peuvent entraver les performances du GPU dans des tâches séquentielles basées sur le langage.
Cette approche spécialisée donne des performances remarquables. L’analyse artificielle de la société d’analyse comparative indépendante a confirmé que le déploiement du GROQ du modèle QWEN3 32B fonctionne à environ 535 baisses par seconde. La société a souligné que cette vitesse ne se fait pas au prix de la capacité, affirmant que c’est le seul fournisseur d’inférence rapide qui permet aux développeurs de créer des «charges de travail au niveau de la production, pas seulement des POC» avec la fenêtre de contexte complet du modèle. Peut accéder au modèle via l’API GroqCloud en utilisant l’identifiant QWEN/QWEN3-32B.
Un défi concurrentiel pour les géants du cloud
La société agit le marché de l’inférence AI en offrant le puissant service QWEN3 32B à seulement 0,29 $ PerSe-to-to-tokens et 0,59 Perkens tokens. Cette combinaison de vitesse et de faible coût présente une proposition de valeur convaincante sur un marché souvent caractérisé par des dépenses de calcul élevées.
Cette stratégie cible directement l’activité principale des principaux fournisseurs de cloud. Cependant, pour les décideurs d’entreprise, s’appuyer sur un fournisseur plus petit et plus spécialisé présente des risques potentiels concernant la stabilité de la chaîne d’approvisionnement et le support à long terme par rapport à l’infrastructure mondiale établie d’Amazon, Google et Microsoft.
Malgré ces défis, le GROQ reste confiant, un porte-parole notant que même si la société doublait son infrastructure prévue,”Il n’y aurait toujours pas suffisamment de capacité pour répondre à la demande aujourd’hui.”