sous le choc d’un partenariat désastreux avec Meta qui a déclenché un client de client et des licenciements de masse, l’échelle de l’entreprise de rééquilibre des données fait un jeu audacieux pour récupérer son autorité dans l’industrie de l’IA.
La société a lancé aujourd’hui”SEAL Showdown”, un nouveau classement public conçu pour déménager les rivalités influentes mais critiquées comme LMarena.”Benchmark Wars”en utilisant un Base d’utilisateurs mondiaux diversifiée et garanties contre la manipulation . Ce pivot stratégique vise à répondre aux préoccupations croissantes selon lesquelles les classements actuels de l’IA sont facilement émous et ne reflètent pas les performances du monde réel, offrant à l’échelle un chemin pour reconstruire sa réputation sur une base de confiance.
de la crise de l’entreprise à une offre de crédibilité
Le lancement est une réponse directe à quelques mois catastrophiques pour l’entreprise, une crise enflammée par une seule décision stratégique. En juin, Meta a investi 14,3 milliards de dollars pour une participation de 49% dans l’échelle AI.
Le déménagement était un gambit désespéré de Meta pour contrer ses propres troubles internes, y compris un sévère drainage des talents et un développement de modèle AI bloqué.
L’accord a été largement considéré comme un”acqui-hire”conçu pour installer Scale Laborat”Superintelligence”. Comme un analyste l’a noté, il s’agissait d’un investissement «de ne pas même acheter une entreprise entière, mais juste pour que la tête d’une entreprise dirige votre effort d’IA». Ils sont confiés à des données sensibles et propriétaires et à de futures feuilles de route des produits de géants de la technologie concurrents. L’accord Meta a détruit cette confiance en un instant.
Les conséquences ont été immédiates et sévères. Un client EXODU a commencé alors que les géants de l’industrie, dont Google, Microsoft et le XAI d’Elon Musk, ont commencé à examiner leurs partenariats, craignant que leurs données ne soient exposées à un concurrent direct.
Google, aurait été le plus important du client de l’échelle, a commencé à planifier une perte de contrat d’une valeur jusqu’à 200 millions de dollars.
La perte de la confiance de l’industrie a fait une confiance dans un trou massif dans un trou de l’échelle dans les revenus de l’échelle. En juillet, un mois seulement après l’accord Meta, l’entreprise a licencié 14% de ses effectifs, affectant 200 employés à temps plein et 500 entrepreneurs. Les coupes ont été traitées brusquement, le personnel aurait été exclu des systèmes avant de se réveiller.
La composition de la crise était des rapports d’une défaillance de sécurité critique qui a exposé les données des clients sur les documents Google publics, endommageant encore sa réputation de gestion des données sécurisées. Le réalignement du marché a créé une opportunité massive pour les concurrents de Scale, avec des entreprises comme Surge IA à la recherche de nouveaux capitaux pour absorber les clients en fuite.
La tourmente a cultivé une action en justice. Début septembre, Scale AI a intenté une action en justice pour l’espionnage d’entreprise contre la société rivale Mercor et un ancien cadre, Eugene Ling.
La poursuite allègue que Ling a volé plus de 100 documents confidentiels contenant des secrets commerciaux avant de rejoindre le concurrent. Le déménagement signale qu’une entreprise sous une immense pression, se battant désormais pour protéger sa propriété intellectuelle à mesure que les concurrents capitalisent sur son instabilité.
Le jeu à enjeux élevés de classements défectueux
SEAL Showdown entre dans un arena farcement compétitif dominé par les plates-formes comme LMarena, qui sont devenues le Topo Scoreboards dans la course AI dans la course. Le classement peut entraîner le buzz des médias, les contrats d’entreprise et les évaluations plus élevées, créant une pression immense pour que les laboratoires fonctionnent bien, parfois par des moyens douteux. Cela a donné naissance aux «guerres de référence», où la perception de la domination est aussi critique que les performances réelles.
Cette concentration intense sur les métriques a conduit à des pratiques comme «Hillclimbing». Un rapport récent a révélé que les entrepreneurs embauchés par Xai d’Elon Musk dans l’objectif explicite de former son modèle Grok pour battre le claude rival d’Anthropic sur le classement de la webdev influent. href=”https://www.businessinsider.com/grok-leaderboard-coding-anthropic-claude-scale-ai-2025-7″cible=”_ Blank”> Business Insider .
Cet”enseignement au test”a divisé la communauté AI. Certains, comme le PDG de Lmarena, Anastasios Angelopoulos, le considèrent comme une partie standard du développement, en disant à Business Insider:”Cela fait partie du flux de travail standard de la formation des modèles. Vous devez collecter des données pour améliorer votre modèle.”
Les autres sont plus sceptiques, avertissement que cela conduit à des résultats déformés. Sara Hooker, responsable de Cohere Labs, a fait valoir que «lorsqu’un classement est important pour tout un écosystème, les incitations sont alignées pour qu’elle soit jouée.”
Ce n’est pas seulement une préoccupation théorique. L’accent intense sur les références semble créer un écart dangereux entre la façon dont les modèles fonctionnent sur les tests et leur fonctionnement dans le monde réel.
Il s’agit d’un exemple classique de la loi de Goodhart, où une mesure cesse d’être utile une fois qu’elle devient la cible principale. En tant que stratège de l’IA Nate Jones a écrit ,”Le moment où nous fixons la domination de classe Systémique, selon une étude de juillet co-écrite par des chercheurs d’Amazon, de Stanford et du MIT.
le Papier Délivré un modèle de référence AI est en profondeur, capable de réaliser un modèle AI est en profondeur, capable de réaliser un modèle AI est en profondeur, capable de faire de Myestim de 100% en raison de problèmes de configuration des tâches et de conception de récompense. Les auteurs ont constaté que ces défauts pouvaient détourner les agents sur les classements compétitifs de 40%.
Avant même cette étude, les critiques ont remis en question la validité scientifique des plateformes de crowdsourced. La professeure de l’Université de Washington, Emily Bender, a fait valoir que «pour être valide, une référence doit mesurer quelque chose de spécifique, et elle doit avoir une validité de construction…,« notant que Lmarena n’avait pas prouvé que les votes des utilisateurs sont réellement en corrélation avec la qualité du modèle, selon TechCrunch. Design.”
Comment le Sceal Showdown vise à construire une meilleure référence
L’échelle AI positionne la confrontation du sceau comme l’antidote à l’approche actuellement imparfaite du modèle de référence du modèle d’IA. La société fait valoir que les classements d’aujourd’hui sont biaisés parce qu’ils s’appuient fortement sur les commentaires d’un groupe étroit de passionnés technologiques , qui malftrait les modèles qui fonctionnent pour le grand public. réseau de contributeurs. Ce réseau s’étend sur plus de 100 pays, 70 langues et diverses professions, promettant une évaluation plus représentative et réaliste des performances du modèle.
Pour la première fois dans un classement public, les utilisateurs peuvent segmenter les classements par démographie comme le pays, l’âge, le niveau d’éducation et la langue. Cela permet aux développeurs et aux clients de voir comment les modèles fonctionnent pour des publics spécifiques, plutôt que de compter sur un seul score monolithique.
Par exemple, les données initiales de Scale révèlent les préférences régionales, avec Chatgpt menant en Europe tandis que Claude est plus compétitif ailleurs. Il montre également comment des modèles comme les Gémeaux fonctionnent mieux avec les utilisateurs non anglophones, offrant des idées auparavant indisponibles au public.
Sur le plan essentiel, l’échelle met également en œuvre des garanties contre la manipulation. La société déclare qu’elle ne vendra ni ne licenciera les données récentes de la même distribution que le classement en direct. Cette politique est conçue pour empêcher les laboratoires AI de simplement régler leurs modèles au «jeu» le classement, les forçant à construire des systèmes vraiment compétents.
Le mouvement souligne un principe qui est devenu un cri de ralliement pour les concurrents de Scale. Comme le PDG de Turing, Jonathan Siddharth, a fait valoir la méta-affaire, «la neutralité n’est plus facultative, c’est essentiel». En lançant une plate-forme construite sur la transparence et la neutralité, l’échelle AI tente de récupérer cette qualité essentielle.
En fin de compte, la confrontation du sceau est plus qu’un lancement de produit; C’est une offre à enjeux élevés pour le rachat. Pour une entreprise dont la réputation a été brisée par un accord qui a compromis son indépendance, la construction de la référence la plus fiable de l’industrie peut être la seule voie de retour à un poste de direction.