I det voldsomme løpet for AI-overherredømme tok Elon Musks Xai direkte mål mot rival Antropic. En ny rapport viser at XAI i begynnelsen av juli ansatte entreprenører for å trene GROK-modellen med et klart mål: slå Anthropic’s Claude på et offentlig kodende toppliste.
Interne dokumenter fortalte arbeidere på skalaen AI-plattformen for å hjelpe GROK klatre på rekkene til den innflytelsesrike WebDev Arena. Flyttingen viser det intense presset på AI-laboratorier til topp offentlige benchmarks, som fungerer som et viktig resultattavle for å tiltrekke investeringer og kunder.
Relatert: Er GROK 4 bare en referansevinner? Xais flaggskipsmodell hever røde flagg, ser ut til å være mye overlagt å score godt
Dette fokuset kommer som GROK 4s prestasjoner i den virkelige verden står overfor tøffe spørsmål fra brukere.
En kamp utkjempet på offentlige toppliste
I følge For Business Insider var prosjektets instruksjoner entydige. Entreprenører fikk i oppgave å”Hillclimb”Groks rangering, med en skala AI Onboarding-dokument som sier:”Vi ønsker å gjøre inngavsmodellen #1-modellen.”Det spesifikke målet var Anthropics”Sonnet 3.7 utvidet”, og identifiserte selskapet som en viktig rival i AI-kodingsrommet.
Denne strategien understreker den enorme innflytelsen fra offentlige toppliste i utformingen av AI-fortellingen. For laboratorier som XAI, Anthropic og Openai, kan en topplasser på et respektert diagram som Lmarena oversette direkte til medie-surr, bedriftskontrakter og en høyere verdsettelse.
Valget av mål forteller. Antropic har konsekvent posisjonert sine Claude-modellene som toppkodende assistenter, et krav støttet av sterke referanseprestasjoner og adopsjon. Dette gjør dem til de facto rival til å slå.
Standard praksis eller spilling av systemet?
Praksisen med å trene en modell på spesifikke testformater reiser spørsmål. Er dette en legitim metode for å forbedre en modell, eller er det ganske enkelt å lære å prøve å spille rangeringen? AI-samfunnet forblir splittet om problemet.
Noen eksperter ser det som en normal del av utviklingssyklusen. Lmarenas administrerende direktør, Anastasios Angelopoulos, ser på det som standard prosedyre, og forteller Business Insider,”Dette er en del av den vanlige arbeidsflyten for modellopplæring. Du må samle inn data for å forbedre modellen din.”Fra dette perspektivet er bruk av topplistedata for å finne og fikse svakheter et logisk trinn.
Imidlertid er andre mer skeptiske, og advarer om at et overdreven fokus på beregninger kan føre til forvrengte utfall. Sara Hooker, sjef for Cohere Labs, hevdet at”når et toppliste er viktig for et helt økosystem, er insentivene på linje med at det skal bli gammet.”
Dette er ikke bare en teoretisk bekymring. I april møtte Meta beskyldninger om spillere etter en variant av sin Llama 4 Maverick-modell som ble brukt til benchmarking, skilte seg fra den offentlige versjonen, og vakte debatt blant forskere.