Is Grok 4 gewoon een benchmarkwinnaar? Xai's vlaggenschipmodel verhoogt rode vlaggen, lijkt zwaar overgelegd om goed te scoren

Xai van Elon Musk lanceerde zijn nieuwe GROK 4-model op 10 juli en beweerde dat het’s werelds krachtigste AI was gebaseerd op recordbrekende academische benchmarks. Sinds het debuut is echter een grimmig andere realiteit naar voren gekomen. Deze prestatiekloof wordt versterkt door een chaotische lanceringsweek.

Onderzoekers hebben het model ook binnen 48 uur gevangen gezet en zijn neiging om de persoonlijke meningen van Musk te raadplegen. Xai’s verhaal over AI-dominantie botst nu met een realiteit van twijfelachtige prestaties, onopgeloste ethische kwesties en aanhoudende beveiligingsfouten.

Een twijfelachtige benchmark King

Op papier is het debuut van GROK 4 een triomf en verhoogt de druk op Openai, die net een groepsonderzoekers heeft verloren om concurrent meta te concurreren en werd overtroffen door Google met een mislukte overname van AI codeer van AI codeer van AI codeer van AI codeer van AI codeer van AI codeer van AI codeer van AI codeer van AI codeer van AI codeer van AI codeer van AI codeer van AI codeer van AI codeer van AI codeer van AI codeer van AI codeer van AI Codeer van AI Codeer. ARC-AGI-2 redeneren benchmark en scoren een perfecte 100% op het Amerikaanse Invitational Mathematics-onderzoek. Musk pochte dat”met betrekking tot academische vragen, GROK 4 beter is dan het doctoraat in elk onderwerp, geen uitzonderingen.”

Maar deze claims lijken snel te ontrafelen onder real-world controle. Het kernprobleem lijkt’overfitting’te zijn, een fenomeen waarbij een model wordt verfijnd om uit te blinken in specifieke evaluatiemetrieken ten koste van algemene intelligentie. Het is een klassiek geval van de wet van Goodhart In actie, waar een maat wordt, is het een goede maatregel. href=”https://yupp.ai/leaderboard”target=”_ blank”> rangschikt modellen op basis van duizenden head-to-head gebruikersvoorkeurstests . In deze real-world arena werd Grok 4 gerangschikt als een sombere 66e kort na de release. Jimmy Lin, mede-oprichter van Yupp.ai, bevestigde de arme show en verklaarde: “GROK 4 is slechter dan andere toonaangevende modellen: Openai O3, Claude Opus 4 en Gemini 2.5 Pro. GROK 4 is geliefd nog minder dan GROK 3.”

Het is 36 uur geleden dat GROK 4 wordt gelanceerd en een vroege Verdicte is gebaseerd op 6k+ op 6K+ GROK 4 GROK 4 GROK 4 GROK 4 GROK 4 GROK 4 GROK 4 GROK 4 GROK 4 GROK 4 GROK 4 GROK 4 GROK INDIENTE OP 6K+ href=”https://twitter.com/yupp_ai?ref_src=twsrc%5etfw”target=”_ blank”>@yupp_ai Gebruikers wereldwijd op echte use cases.

‼ ️ ieken GROK 4 is slechter dan andere toonaangevende modellen: Openai O3, CLAUDE OPUS 4 en Gemini 2.5 Pro. GROK 4 is zelfs minder geliefd dan Grok 3. href=”https://twitter.com/lintool/status/1943721853186404606?ref_src=twsrc%5etfw”target=”_ blank”> 11 juli, 2025

lin de lage rangorde van het model zijn langzaam en fouten-e-ranking. Een onafhankelijk vijf-task examen weerspiegelde deze bevindingen, waarbij GROK 4 consequent de laatste plaatsvond. Het mislukte bij praktische taken zoals het repareren van python-code, het leveren van elegante maar niet-functionele oplossingen en het volgen van expliciete opmaakinstructies.

Een paar dagen later, na 46.3K+ gebruikersvergelijkingen, GROK 4’s VIBE-score op het Yupp.ai-leiderbord heeft nu gerangschikt om rond 16 te rangschikken om rond 16 te rangschikken om rond 16 te rangschikken.

Een cascade van controverse en ideologische knikken

De slechte bruikbaarheid van GROK 4 wordt verergerd door een reeks controverses. De lancering vond plaats in de schaduw van de”gruwelijke”antisemitische meltdown van zijn voorganger, waarvoor Xai later een verontschuldiging heeft gegeven en een”technische bug”de schuld gaf. Following Grok 3’s meltdown, Poland’s Minister of Digital Affairs, Krzysztof Gawkowski, issued a stern warning, declaring that “freedom of speech belongs to humans, not artificial intelligence.”

Researchers also discovered how Grok 4 harbors a significant built-in bias: it consults Elon Musk’s personal X posts for answers on sensitive topics. Dit gedrag, onthuld door het eigen ketting van het model van het model, is direct in tegenspraak met het doel van Xai om een”maximaal waarheidzoekende AI te creëren.”

Verdere analyse ontdekte andere met betrekking tot”knikken”. Volgens gegevens van snitchbench , toont GROK-4 een gemarkeerde neiging om de autoriteiten te snitchen. Dit maakt het een risicovolle propositie voor User Trust. De benchmark is ontworpen om de neiging van een AI te testen naar wat hij zou kunnen beschouwen als pro-sociale rapportage. Het geeft de modelscenario’s en evalueert of het de optie kiest om een gebruiker of situatie te melden aan een autoriteitsfiguur, versus het op een andere manier afhandelen.

gebroken beloften en backdoor kwetsbaarheden

voorbij prestaties en bias, grok 4’s lancering is ook door beveiligingsfouten. Binnen 48 uur hadden beveiligingsonderzoekers van NeuralTrust het model met succes jailbreak, waardoor het instructies produceerde voor het maken van een Molotov-cocktail. Bekend als”Echo Chamber”en”Crescendo.” Deze techniek manipuleert geleidelijk de conversatiecontext van de AI om zijn veiligheidsfilters te omzeilen. Zoals NeuralTrust-onderzoeker Ahmad Alobaid uitlegde:”LLM-jailbreak-aanvallen evolueren niet alleen individueel, ze kunnen ook worden gecombineerd om hun effectiviteit te versterken.”

De kwetsbaarheid benadrukt hoe verdedigingen gericht op afzonderlijke prompts slecht uitgerust zijn om aanhoudende, subtiele manipulatie aan te kunnen. De succesvolle jailbreak draagt bij aan een groeiende lijst van gênante en gevaarlijke mislukkingen voor de modellen van Xai.

Het samenstellen van deze problemen liep Xai stilletjes een publieke toewijding aan transparantie terug. Het Premium Grok 4 Heavy-model is nu ontworpen om zijn systeemprompt te verbergen, een directe tegenstelling van een eerdere belofte van een XAI-onderzoeker om ze open te houden.

Critici suggereren dat de intense focus op benchmark-suprematie een PR-gedreven inspanning was om Xai’s hemelhoge waardering te rechtvaardigen en het verhaal na een week van scandalen te wijzigen. Xai bereidt momenteel een nieuwe fondsenwervingsronde voor die deze zou kunnen waarderen tot $ 200 miljard. Terwijl het team van XAI in een opmerkelijk tempo schepen, suggereert het gebrekkige debuut van Grok 4 dat in de race voor AI-dominantie, real-world nut en veiligheid zijn achtergelaten.

Is Grok 4 gewoon een benchmarkwinnaar? Xai’s vlaggenschipmodel verhoogt rode vlaggen, lijkt zwaar overgelegd om goed te scoren

Published by All Things Windows on July 16, 2025

Een twijfelachtige benchmark King

Een cascade van controverse en ideologische knikken

gebroken beloften en backdoor kwetsbaarheden

IT Info

ITC-regering tegen Apple-leverancier Boe bedreigt ons iPhone-verbod

IT Info

Apple wordt € 14,25 miljard Ierse belastingbetaling afgerond en sluit negenjarige juridische strijd met de EU

IT Info

Cloudflare 1.1.1 DNS-uitval activeert wereldwijde internetverstoring

Is Grok 4 gewoon een benchmarkwinnaar? Xai’s vlaggenschipmodel verhoogt rode vlaggen, lijkt zwaar overgelegd om goed te scoren

Published by All Things Windows on July 16, 2025

Een twijfelachtige benchmark King

Een cascade van controverse en ideologische knikken

gebroken beloften en backdoor kwetsbaarheden

Related Posts

IT Info

ITC-regering tegen Apple-leverancier Boe bedreigt ons iPhone-verbod

IT Info

Apple wordt € 14,25 miljard Ierse belastingbetaling afgerond en sluit negenjarige juridische strijd met de EU

IT Info

Cloudflare 1.1.1 DNS-uitval activeert wereldwijde internetverstoring