I det voldsomme løpet for AI-overherredømme tok Elon Musks Xai direkte mål mot rival Antropic. En ny rapport viser at XAI i begynnelsen av juli ansatte entreprenører for å trene GROK-modellen med et klart mål: slå Anthropic’s Claude på et offentlig kodende toppliste.

Interne dokumenter fortalte arbeidere på skalaen AI-plattformen for å hjelpe GROK klatre på rekkene til den innflytelsesrike WebDev Arena. Flyttingen viser det intense presset på AI-laboratorier til topp offentlige benchmarks, som fungerer som et viktig resultattavle for å tiltrekke investeringer og kunder.

Relatert: Er GROK 4 bare en referansevinner? Xais flaggskipsmodell hever røde flagg, ser ut til å være mye overlagt å score godt

Dette fokuset kommer som GROK 4s prestasjoner i den virkelige verden står overfor tøffe spørsmål fra brukere.

En kamp utkjempet på offentlige toppliste

I følge For Business Insider var prosjektets instruksjoner entydige. Entreprenører fikk i oppgave å”Hillclimb”Groks rangering, med en skala AI Onboarding-dokument som sier:”Vi ønsker å gjøre inngavsmodellen #1-modellen.”Det spesifikke målet var Anthropics”Sonnet 3.7 utvidet”, og identifiserte selskapet som en viktig rival i AI-kodingsrommet.

Denne strategien understreker den enorme innflytelsen fra offentlige toppliste i utformingen av AI-fortellingen. For laboratorier som XAI, Anthropic og Openai, kan en topplasser på et respektert diagram som Lmarena oversette direkte til medie-surr, bedriftskontrakter og en høyere verdsettelse.

Valget av mål forteller. Antropic har konsekvent posisjonert sine Claude-modellene som toppkodende assistenter, et krav støttet av sterke referanseprestasjoner og adopsjon. Dette gjør dem til de facto rival til å slå.

Standard praksis eller spilling av systemet?

Praksisen med å trene en modell på spesifikke testformater reiser spørsmål. Er dette en legitim metode for å forbedre en modell, eller er det ganske enkelt å lære å prøve å spille rangeringen? AI-samfunnet forblir splittet om problemet.

Noen eksperter ser det som en normal del av utviklingssyklusen. Lmarenas administrerende direktør, Anastasios Angelopoulos, ser på det som standard prosedyre, og forteller Business Insider,”Dette er en del av den vanlige arbeidsflyten for modellopplæring. Du må samle inn data for å forbedre modellen din.”Fra dette perspektivet er bruk av topplistedata for å finne og fikse svakheter et logisk trinn.

Imidlertid er andre mer skeptiske, og advarer om at et overdreven fokus på beregninger kan føre til forvrengte utfall. Sara Hooker, sjef for Cohere Labs, hevdet at”når et toppliste er viktig for et helt økosystem, er insentivene på linje med at det skal bli gammet.”

Dette er ikke bare en teoretisk bekymring. I april møtte Meta beskyldninger om spillere etter en variant av sin Llama 4 Maverick-modell som ble brukt til benchmarking, skilte seg fra den offentlige versjonen, og vakte debatt blant forskere.

Widening Gap mellom Benchmarks og virkelig den virkelige verden. Dette er et klassisk eksempel på Goodharts lov, der et tiltak slutter å være nyttig når det blir det primære målet.

Grok 4s lansering gir en avslørende illustrasjon av dette. Mens XAI utpekte rekordstore score på akademiske tester, ble den praktiske ytelsen umiddelbart stilt spørsmål. På bruker-preferanse-plattformen Yupp.ai, som er avhengig av sammenligning av head-to-head, rangerte GROK 4 Opprinnelig en dyster 66.

Yupp.ai-medgründer Jimmy Lin Lin, uttalte,”GROK 4 er verre enn andre ledende modeller: Openai O3 er Claude opus 4, og GEM. Denne dårlige visningen ble tilskrevet at modellen var treg og feilutsatt i scenarier i den virkelige verden. Fra og med midten av juli hadde Grok 4 klatret til 12. plass på Webdev-arenaen, og fremdeles fulgte Anthropics modeller.

Webdev Arena Leaderboard (07/22/2025)

Denne frakoblingen bekymrer mange bransjevaktere. AI Strategist Nate Jones skrev i sitt nyhetsbrev ,”The Moment We Set Leaderboard Trawnis og Fact Mål.”For utviklere betyr dette at en modell som øker en eksamen fremdeles kan mislykkes ved de praktiske kodingsoppgavene de trenger den for å utføre.

høye innsatser og en urolig utrulling

Push for Leaderboard Dominance handler ikke bare om skryterettigheter. Innsatsen kommer ettersom Xai angivelig søker en ny innsamlingsrunde som kan verdsette den til opptil 200 milliarder dollar, noe High-stakes-spill som spilles av AI Labs, der oppfatningen av dominans, drevet av referansediagrammer, kan være like viktig som modellens faktiske, praktiske nytteverdi.

Categories: IT Info