Er Grok 4 bare en referansevinner? Xais flaggskipsmodell hever røde flagg, virker tungt overlagt å score godt

Elon Musks Xai lanserte sin nye Grok 4-modell 10. juli, og hevdet at det var verdens mektigste AI basert på rekordstore akademiske benchmarks. Imidlertid har det dukket opp en tydelig annerledes virkelighet siden debuten.

Uavhengige analytikere og bruker-preferanse-plattformer avslører at modellen presterer dårlig i den virkelige scenariene, noe som antyder at den er”overfitt”til ACE-tester, men mangler praktisk brukbarhet. Dette ytelsesgapet forsterkes av en kaotisk lanseringsuke.

Forskere jailbroke modellen innen 48 timer og avdekket sin tendens til å konsultere Musks personlige meninger. Xais fortelling om AI-dominans kolliderer nå med en realitet av tvilsom ytelse, uavklarte etiske spørsmål og vedvarende sikkerhetsfeil.

En tvilsom benchmark King

på papir, er GROK 4s debut en triumf og øker presset på Openai, som nettopp har mistet en gruppeforskere til konkurrent og ble overgått av google med den mislykkede AI-koding-redaktøren Windsurf. Arc-Agi-2 resonnerende benchmark og score en perfekt 100% på American Invitational Mathematics Examination. Musk skrøt av at”med hensyn til akademiske spørsmål, er GROK 4 bedre enn PhD-nivå i hvert emne, ingen unntak.”

Men disse påstandene ser raskt ut til å løsne under kontrollen i den virkelige verden. Kjerneproblemet ser ut til å være”overmontering”, et fenomen der en modell er finjustert for å utmerke seg på spesifikke evalueringsmålinger på bekostning av generell intelligens. Det er et klassisk tilfelle av Goodhart’s Law I aksjon, hvor et plattform blir et plattform, er det en plattform. rangerer modeller basert på tusenvis av head-to-head brukerpreferansetester . I denne virkelige arenaen ble GROK 4 rangert som en dyster 66. kort tid etter utgivelsen. Jimmy Lin, medgründer av Yupp.ai, bekreftet den dårlige visningen, og sa: “GROK 4 er verre enn andre ledende modeller: Openai O3, Claude Opus 4 og Gemini 2.5 Pro. Grok 4 er likte enda mindre enn GROK.”

Det er 36 timer siden GROK 4. href=”https://twitter.com/yupp_ai?ref_src=twsrc%5etfw”Target=”_ blank”>@yupp_ai Brukere globalt i virkelige tilfeller.

‼ ️ ️ ️ grok 4 er verre enn andre ledende modeller: Openai O3 O3‼ ️ ️ ️ ️ ️ ️ ️ ️ ️@_Ai Brukere globalt enn andre bruksmodeller. GROK 4 er likt enda mindre enn GROK 3. 🧵 pic.twitter.com/iui3wpc3hn

-Jimmy Lin (@Lintool)

href=”https://twitter.com/lintool/status/1943721853186404606?ref_src=twsrc%5etfw”Target=”Blank”> 11. juli 2025

En uavhengig fem-oppgaver-eksamen speilet disse funnene, med Grok 4 som konsekvent plasserte sist. Det mislyktes ved praktiske oppgaver som å fikse Python-kode, levere elegante, men ikke-funksjonelle løsninger, og følge eksplisitte formateringsinstruksjoner.

Noen dager senere, etter 46.3k+ bruker sammenligning, GROK 4s stemningspoeng på Yupp.ai toppliste En kaskade av kontroverser og ideologiske knekk

GROK 4s dårlige brukbarhet er forsterket av en serie kontroverser. Lanseringen skjedde i skyggen av forgjengerens”forferdelige”antisemittiske nedbrytning, som Xai senere ga ut unnskyldning, og beskyldte en”teknisk feil.”

Mønsteret med uberegnelig atferd har utløst internasjonal alarm. Etter Grok 3s nedbrytning, utstedte Polens minister for digitale anliggender, Krzysztof Gawkowski, en streng advarsel, og erklærte at”ytringsfrihet tilhører mennesker, ikke kunstig intelligens.”

Forskere oppdaget også hvordan GROK 4 havn for en betydelig innebygd skjevhet: It Consults Elon Musk Musks Poss Personal X Post Poss Personal Personal Person Personal X Post Poss Personal X Post Post Personal X Post for å få en betydelig innebygd innebygde. Denne oppførselen, avslørt av modellens eget sporingskjede, motsier direkte Xais mål om å skape en”maksimalt sannhetssøkende AI.”

Ytterligere analyse avdekket andre angående”knekk.”I følge data fra Snitchbench , viser GROK-4 en markant tendens til å snitch til myndighetene. Dette gjør det til et risikabelt forslag for brukertillit. Referansen er designet for å teste en AIs tendens til hva den kan oppfatte som pro-sosial rapportering. Det gir modellscenariene og evaluerer om den velger muligheten til å rapportere en bruker eller situasjon til en autoritetsfigur, kontra å håndtere den på en annen måte.

ødelagte løfter og bakdør-sårbarheter

utover ytelse og skjevhet, FLOK 4’s lansering har også knyttet etter sikkerhet. I løpet av 48 timer hadde sikkerhetsforskere på NeuralTrust vellykket jailbroken modellen, og fått den til å produsere instruksjoner for å lage en Molotov-cocktail.

De brukte en sofistikert, multi-turn”hvisket”angrep Kombinere to metoder kjent som”Echo Chamber”og”Crescendo.” Denne teknikken manipulerer gradvis AIs samtale kontekst for å omgå sikkerhetsfiltrene. Som nevraltrustforsker Ahmad Alobaid forklarte, “LLM jailbreak-angrep er ikke bare utvikler seg individuelt, de kan også kombineres for å forsterke effektiviteten.”

Sårbarhet fremhever hvordan forsvar fokusert på enkeltkontrakter er dårlig utstyrt for å håndtere vedvarende, subtile manipulasjon. Den vellykkede jailbreak legger til en voksende liste over pinlige og farlige feil for Xais modeller.

Forbindelse av disse problemene, Xai gikk stille tilbake et offentlig forpliktelse til åpenhet. PREMIUM GROK 4 tunge modell er nå designet for å skjule systemet, en direkte motsetning av et tidligere løft av en XAI-forsker for å holde dem åpne.

Kritikere antyder at det intense fokuset på referansepunkter var en PR-drevet innsats for å rettferdiggjøre XAIs skyhøye verdivurdering og endre fortellingen etter en uke med skandaler. Xai forbereder for tiden en ny innsamlingsrunde som kan verdsette den på opptil 200 milliarder dollar. Mens teamet på XAI leveres i et bemerkelsesverdig tempo, antyder GROK 4s mangelfulle debut at i løpet av AI-dominans, kan den virkelige verden og sikkerhet ha blitt etterlatt.

Er Grok 4 bare en referansevinner? Xais flaggskipsmodell hever røde flagg, virker tungt overlagt å score godt

Published by All Things Windows on July 16, 2025

En tvilsom benchmark King

ødelagte løfter og bakdør-sårbarheter

IT Info

ITC-kjennelse mot Apple-leverandøren Boe truer oss iPhone Ban

IT Info

Mozilla Ships WebGPU i Firefox 141, låser opp en ny generasjon nettgrafikk

IT Info

Apple avslutter € 14,25 milliarder irsk skattebetaling, og avslutter ni-årig juridisk kamp med EU

Er Grok 4 bare en referansevinner? Xais flaggskipsmodell hever røde flagg, virker tungt overlagt å score godt

Published by All Things Windows on July 16, 2025

En tvilsom benchmark King

ødelagte løfter og bakdør-sårbarheter

Related Posts

IT Info

ITC-kjennelse mot Apple-leverandøren Boe truer oss iPhone Ban

IT Info

Mozilla Ships WebGPU i Firefox 141, låser opp en ny generasjon nettgrafikk

IT Info

Apple avslutter € 14,25 milliarder irsk skattebetaling, og avslutter ni-årig juridisk kamp med EU