In de felle race voor AI Supremacy richtte de Xai van Elon Musk direct op rivaal Anthropic. Uit een nieuw rapport blijkt dat XAI begin juli aannemers heeft ingehuurd om zijn GROK-model met een duidelijk doel te trainen: Beat Anthropic’s Claude op een openbaar coderend leaderboard.
Interne documenten vertelden werknemers op het schaal AI-platform om Grok te helpen de gelederen van de invloedse Webdev Arena te beklimmen. De verhuizing toont de intense druk op AI-laboratoria om openbare benchmarks te bovenaan, die fungeren als een belangrijk scorebord voor het aantrekken van investeringen en klanten.
gerelateerd: Is GROK 4 slechts een benchmark-winnaar? Het vlaggenschipmodel van XAI haalt rode vlaggen op, lijkt zwaar overgebracht om goed te scoren
This focus comes as Grok 4’s real-world performance faces tough questions from users.
A Battle Fought on Public Leaderboards
Volgens Voor Business Insider waren de instructies van het project ondubbelzinnig. Aannemers werden belast met”Hillclimb”GROK’S RANKING, met een schaal AI Onboarding-document waarin stond:”We willen het in-task-model het #1-model maken.”Het specifieke doelwit was Anthropic’s”Sonnet 3.7 uitgebreid”, het identificeren van het bedrijf als een belangrijke rivaal in de AI-coderingsruimte.
Deze strategie onderstreept de immense invloed van openbare leaderboards bij het vormgeven van het AI-verhaal. Voor laboratoria zoals XAI, Anthropic en Openai kan een toppositie op een gerespecteerde grafiek zoals Lmarena zich rechtstreeks vertalen in media-buzz, bedrijfscontracten en een hogere waardering.
De keuze van het doel is veelzeggend. Anthropic heeft zijn Claude-modellen consequent gepositioneerd als topcode-assistenten, een claim die wordt ondersteund door sterke benchmarkprestaties en acceptatie van ontwikkelaars. Dit maakt hen de de facto rivaal om te verslaan.
Standaardpraktijk of gaming het systeem?
De praktijk om een model op specifieke testformaten intens te trainen, roept vragen op. Is dit een legitieme methode om een model te verbeteren, of leert het gewoon aan de test om de ranglijst te spelen? De AI-gemeenschap blijft verdeeld over de kwestie.
Sommige experts zien het als een normaal onderdeel van de ontwikkelingscyclus. De CEO van Lmarena, Anastasios Angelopoulos, beschouwt het als standaardprocedure en vertelt Business Insider:”Dit maakt deel uit van de standaard workflow van modeltraining. U moet gegevens verzamelen om uw model te verbeteren.”Vanuit dit perspectief is het gebruik van gegevens van het leaderboard om zwakke punten te vinden en op te lossen een logische stap.
zijn anderen echter sceptischer, waarschuwend dat een buitensporige focus op statistieken kan leiden tot vervormde resultaten. Sara Hooker, hoofd van CoHere Labs, betoogde dat”wanneer een klassement belangrijk is voor een heel ecosysteem, de prikkels zijn afgestemd op het gamed.”
Dit is niet alleen een theoretische zorg. In april werd Meta geconfronteerd met beschuldigingen van gaming-leaderboards na een variant van het LLAMA 4 Maverick-model dat werd gebruikt voor benchmarking verschilde van de openbare versie, waardoor het debat werd veroorzaakt tussen onderzoekers.
De groeiende GAP tussen de manier waarop ze worden gevraagd in de echte wereld. Dit is een klassiek voorbeeld van de wet van Goodhart, waarbij een maat ophoudt nuttig te zijn zodra het het primaire doelwit wordt.
De lancering van GROK 4 biedt een onthullende illustratie hiervan. Terwijl Xai recordbrekende scores op academische tests aanpaste, werden de praktische prestaties onmiddellijk in twijfel getrokken. Op het gebruikerspreferentieplatform Yupp.ai, dat afhankelijk is van head-to-head vergelijkingen, rangschikte GROK 4 aanvankelijk een sombere 66e.
yupp.ai mede-oprichter Jimmy Lin Jimmy Lin Boeslag verklaarde: “GROK 4 is slechter dan andere toonaangevende modellen: Openai O3, Claude Opus 4 en Gemini 2.5 Pro. Deze slechte show werd toegeschreven dat het model langzaam en foutgevoelig was in real-world scenario’s. Vanaf half juli was Grok 4 naar de 12e plaats geklommen in de WebDev Arena, nog steeds achter de modellen van Anthropic.
Webdev Arena Leaderboard (22/07/2025)
Dit verbreekt de zorgen veel industriële kijkers. AI-strateeg Nate Jones schreef in zijn nieuwsbrief ,”Het moment dat we leiderbord dominantie hebben ingesteld als het doel, riskeer modellen die Excel in trivere oefeningen en flierder in de realiteit hebben gezet.”Voor ontwikkelaars betekent dit dat een model dat een examen doet, misschien nog steeds faalt bij de praktische coderingstaken die ze nodig hebben om het uit te voeren.
Hoge inzet en een onrustige uitrol
De drang naar dominantie gaat niet alleen over opscheppen. De inspanning komt als Xai naar verluidt naar een nieuwe fondsenwervingsronde streeft die deze zou kunnen waarderen tot $ 200 miljard, waardoor positieve krantenkoppen een strategisch actief zijn.
Deze druk om uit te voeren op benchmarks valt samen met een chaotische lanceringsweek voor GROK 4, die is ontsierd door beveiligingsfouten en heuvels van Ideologische bias. onthult dat het spel met hoge inzet wordt gespeeld door AI Labs, waar de perceptie van dominantie, aangedreven door benchmarkgrafieken, net zo belangrijk kan zijn als het werkelijke, praktische hulpprogramma van het model.
De lancering van GROK 4 biedt een onthullende illustratie hiervan. Terwijl Xai recordbrekende scores op academische tests aanpaste, werden de praktische prestaties onmiddellijk in twijfel getrokken. Op het gebruikerspreferentieplatform Yupp.ai, dat afhankelijk is van head-to-head vergelijkingen, rangschikte GROK 4 aanvankelijk een sombere 66e.
yupp.ai mede-oprichter Jimmy Lin Jimmy Lin Boeslag verklaarde: “GROK 4 is slechter dan andere toonaangevende modellen: Openai O3, Claude Opus 4 en Gemini 2.5 Pro. Deze slechte show werd toegeschreven dat het model langzaam en foutgevoelig was in real-world scenario’s. Vanaf half juli was Grok 4 naar de 12e plaats geklommen in de WebDev Arena, nog steeds achter de modellen van Anthropic.
Webdev Arena Leaderboard (22/07/2025)
Dit verbreekt de zorgen veel industriële kijkers. AI-strateeg Nate Jones schreef in zijn nieuwsbrief ,”Het moment dat we leiderbord dominantie hebben ingesteld als het doel, riskeer modellen die Excel in trivere oefeningen en flierder in de realiteit hebben gezet.”Voor ontwikkelaars betekent dit dat een model dat een examen doet, misschien nog steeds faalt bij de praktische coderingstaken die ze nodig hebben om het uit te voeren.
Hoge inzet en een onrustige uitrol
De drang naar dominantie gaat niet alleen over opscheppen. De inspanning komt als Xai naar verluidt naar een nieuwe fondsenwervingsronde streeft die deze zou kunnen waarderen tot $ 200 miljard, waardoor positieve krantenkoppen een strategisch actief zijn.
Deze druk om uit te voeren op benchmarks valt samen met een chaotische lanceringsweek voor GROK 4, die is ontsierd door beveiligingsfouten en heuvels van Ideologische bias. onthult dat het spel met hoge inzet wordt gespeeld door AI Labs, waar de perceptie van dominantie, aangedreven door benchmarkgrafieken, net zo belangrijk kan zijn als het werkelijke, praktische hulpprogramma van het model.