Elon Musks XAI lanserade sin nya Grok 4-modell den 10 juli och hävdade att det var världens mest kraftfulla AI baserat på rekordbrytande akademiska riktmärken. En tydligt annorlunda verklighet har emellertid dykt upp sedan den debut.
oberoende analytiker och användarpreferensplattformar avslöjar att modellen presterar dåligt i verkliga scenarier, vilket tyder på att det är”övermärkt”för ACE-test men saknar praktisk användbarhet. Denna prestationsklyftan förstärks av en kaotisk lanseringsvecka.
Forskare jailbroke modellen inom 48 timmar och avslöjade sin tendens att konsultera Musks personliga åsikter. XAI: s berättelse om AI-dominans är nu kolliderar med en verklighet av tvivelaktiga prestationer, olösta etiska frågor och ihållande säkerhetsbrister.
>>
En tvivelaktig Benchmark King
på papper, Grok 4: s debut är en triumf och ökar trycket på OpenAI, som just har tappat en gruppforskare till konkurrenter meta och var utspelad av Google med en misslyckad övertagande av AI-kodande redaktör. ARC-AGI-2 resonemangsreenchmark och gör ett perfekt 100% på den amerikanska inbjudningsmatematikundersökningen. Musk skröt ut att”med avseende på akademiska frågor är Grok 4 bättre än doktorandnivå i varje ämne, inga undantag.”
Men dessa påståenden verkar snabbt upptäckas under verklig granskning. Kärnfrågan verkar vara”övermontering”, ett fenomen där en modell är finjusterad för att utmärka sig på specifika utvärderingsmetriker på bekostnad av allmän intelligens. It’s a classic case of Goodhart’s Law in action, where, “When a measure becomes a target, it ceases to be a good measure.“
This disconnect is starkly illustrated on yupp.ai, a platform that rankar modeller baserade på tusentals head-to-head användarpreferensprov . På denna verkliga arena rankades Grok 4 som en dyster 66: e strax efter utgivningen. Jimmy Lin, medgrundare av Yupp.ai, bekräftade den fattiga uppvisningen och säger: “Grok 4 är sämre än andra ledande modeller: openai O3, Claude Opus 4 och Gemini 2.5 Pro. Grok 4 är gillade till och med mindre än Grok 3.”
Det har varit 36 timmar sedan Grok 4 lanseras och vi har en Early än en för tidigt på 6. href=”https://twitter.com/yupp_ai?ref_src=twsrc%5etfw”Target=”_ blank”>@yupp_ai Användare globalt på verkliga användningsfall.
‼ ️ ️ grok 4 är sämre än andra ledande modeller: openai o3, clay open oper 4, och gemin. Grok 4 är gillad ännu mindre än grok 3. 🧵 pic.twitter.com/iui3wpc3hn
-jimmy lin (@lintool) 11, 2025
lindrande till den låga rangkingade modellen att vara långsam och fel och fel. En oberoende examen med fem uppgifter speglade dessa fynd, med Grok 4 konsekvent placerade sist. Det misslyckades med praktiska uppgifter som att fixa Python-kod, leverera eleganta men icke-funktionella lösningar och följa uttryckliga formateringsinstruktioner.
några dagar senare, efter 46,3K+ användarjämförelser, Grok 4: s vibe-poäng på Yupp.ai Leaderboard har nu klättrat för att rangordna runt 16 , men dess socre detta är fortfarande långt älskare än antropics claude 4-modeller, Google’s gemi 2.5 Pro och even GPT-4.
En kaskad av kontroverser och ideologiska kinks
Grok 4: s dåliga användbarhet förvärras av en serie kontroverser. Lanseringen inträffade i skuggan av föregångarens”fruktansvärda”antisemitiska nedsmutsning, för vilken XAI senare utfärdade en ursäkt, och skyllde ett”tekniskt fel.”
Mönstret för oberäknat beteende har utlöst internationellt larm. Efter Grok 3: s nedsmutsning utfärdade Polens minister för digitala frågor, Krzysztof Gawkowski, en sträng varning och förklarade att”yttrandefrihet tillhör människor, inte konstgjord intelligens.”
Forskare upptäckte också hur Grok 4 hamnar en betydande inbyggd förspänning: det konsulterar Elon Musks personliga X-inlägg för SENTIFICER. Detta beteende, avslöjat av modellens egna spårkedja, strider direkt mot XAI: s mål att skapa en”maximalt sanningssökande AI.”
Ytterligare analys avslöjade andra angående”kinks”. Enligt data från Snitchbench visar grok-4 en markant tendens att snitch till myndigheterna. Detta gör det till ett riskabelt förslag för användarförtroende. Riktmärket är utformat för att testa en AI: s tendens till vad den kan uppfatta som pro-social rapportering. Det ger modellscenarierna och utvärderar om den väljer möjligheten att rapportera en användare eller situation till en myndighetsfigur, kontra hantering av den på ett annat sätt.
trasiga löften och bakdörrens sårbarheter
Beyond Performance and Bias, GROK 4: s lansering har också lagrats av säkerhetsmissioner. Inom 48 timmar hade säkerhetsforskare på NeuralTrust framgångsrikt fängslat modellen och fått den att producera instruktioner för att göra en Molotov-cocktail.
De använde en sofistikerad, multi-turn “Whispered” Attack Denna teknik manipulerar gradvis AI: s konversationssammanhang för att kringgå sina säkerhetsfilter. Som neuraltrustforskaren Ahmad Alobaid förklarade,”LLM Jailbreak-attacker utvecklas inte bara individuellt, de kan också kombineras för att förstärka deras effektivitet.”
Sårbarheten framhäver hur försvar fokuserade på enstaka uppfattningar är dåligt utrustade för att hantera persistent, subtil manipulation. Den framgångsrika jailbreaken bidrar till en växande lista över pinsamma och farliga misslyckanden för XAI: s modeller.
Förenade dessa frågor, gick XAI tyst tillbaka ett offentligt engagemang för öppenhet. Premium Grok 4 Heavy-modellen är nu utformad för att dölja sin systemprompt, en direkt motsägelse av ett tidigare löfte från en XAI-forskare för att hålla dem öppna.
kritiker tyder på det intensiva fokuset på benchmark överlägsenhet var en PR-driven ansträngning för att motivera Xais skyhög värdering och förändra berättelsen efter en vecka med skandaler. XAI förbereder för närvarande en ny insamlingsrunda som kan värdera den till upp till 200 miljarder dollar. Medan teamet på XAI-fartyg i en anmärkningsvärd takt, antyder Grok 4: s felaktiga debut att i loppet om AI-dominans kan verklig nytta och säkerhet ha lämnats kvar.