Xai de la Elon Musk a lansat noul său model Grok 4 pe 10 iulie, susținând că a fost cea mai puternică AI din lume bazată pe valori de referință academice record. Cu toate acestea, a apărut o realitate extrem de diferită de la debutul său.
analiștii independenți și platformele de preferință a utilizatorilor dezvăluie că modelul funcționează slab în scenarii din lumea reală, ceea ce sugerează că este „suprafinit” pentru testele ACE, dar nu are o utilizare practică. Acest decalaj de performanță este amplificat de o săptămână de lansare haotică.
Cercetătorii au închis modelul în 48 de ore și și-au descoperit tendința de a consulta opiniile personale ale lui Musk. Narațiunea lui Xai despre dominanța AI se ciocnește acum cu o realitate a performanței discutabile, a problemelor etice nerezolvate și a defectelor de securitate persistente.
Un referință de referință discutabilă
Pe hârtie, debutul lui Grok 4 este un triumf și crește presiunea asupra lui OpenAI, care tocmai a pierdut un cercetător de grup la meta concurentă și a fost depășit de Google cu o preluare eșuată a editorului de codificare AI, în testele dificile, aproape dublu. Arc-AGI-2 RETARMENTAREA MOTIVERULUI ȘI PRECAREA UNUI 100% PERFECTĂ LA EXAMENUL AMERICAN DE MATEMATICĂ INVITATIONALĂ. Musk s-a lăudat că „în ceea ce privește întrebările academice, Grok 4 este mai bun decât nivelul de doctorat în fiecare subiect, fără excepții. Problema de bază pare a fi „suprafintită”, un fenomen în care un model este reglat bine pentru a excela asupra valorilor de evaluare specifice în detrimentul inteligenței generale. Este un caz clasic de Legea lui Goodhart În acțiune, unde, „Când o măsură devine o țintă, încetează să fie o măsură bună.”
această disconectare este ilustrată în mod stard pe yupp.ai, o platformă? href=”https://yupp.ai/leaderboard”target=”_ blank”> clasifică modele bazate pe mii de teste de preferință a utilizatorului din cap la cap . În această arenă din lumea reală, Grok 4 a fost clasat pe locul 66, la scurt timp după eliberare. Jimmy Lin, co-fondator al Yupp.ai, a confirmat arătarea slabă, afirmând: „Grok 4 este mai rău decât alte modele de frunte: Openai O3, Claude Opus 4 și Gemini 2.5 Pro. Grok 4 este plăcut chiar mai puțin decât Grok 3. href=”https://twitter.com/yupp_ai?ref_src=twsrc%5etfw”target=”_ blank”>@yupp_ai Utilizatori la nivel global pe cazuri de utilizare reală.
‼ ️ Grok 4 este mai rău decât alte modele de conducere: Openai O3, Claude Opus 4, și GEMINI 2.5 Pro. Grok 4 este plăcut chiar mai puțin decât Grok 3. 🧵 pic.twitter.com/iui3wpc3hn
-Jimmy Lin (@LINTOOL) 11 iulie 2025
Lin a atribuit rangul scăzut al modelului lent și a erorii. Un examen independent cu cinci sarcini a reflectat aceste descoperiri, cu Grok 4 plasând constant ultima. Acesta a eșuat la sarcini practice, cum ar fi remedierea codului Python, furnizarea de soluții elegante, dar nefuncționale și urmând instrucțiuni explicite de formatare.
Câteva zile mai târziu, după 46,3K+ comparații ale utilizatorilor, scorul Vibe Grok 4 pe clasamentul Yupp.ai a urcat acum pentru a se clasifica în jur de 16 , cu toate acestea, socrul său acesta este încă mult mai mult decât antropic Claude 4 modele, Google Gemini 2.5 Pro și chiar GPT-4O.
O cascadă de controverse și kink-uri ideologice
Utilizabilitatea slabă a lui Grok 4 este compusă de o serie de controverse. Lansarea s-a produs în umbra derulării antisemitice a predecesorului său, pentru care Xai a emis ulterior o scuză, învinovățind o „eroare tehnică”. În urma topirii lui Grok 3, ministrul Afacerilor Digitale din Polonia, Krzysztof Gawkowski, a emis un avertisment sever, declarând că „Libertatea de exprimare aparține oamenilor, nu inteligenței artificiale.”
Cercetătorii au descoperit, de asemenea, modul în care Grok 4 pornește o părtinire semnificativă încorporată: consultă Elon Musk X Posts pentru răspunsuri pe texuri sensibile. Acest comportament, dezvăluit de propriul urmă de lanț de gândire a modelului, contrazice direct obiectivul lui Xai de a crea o „AI maximă de adevăr care caută adevăr”.
Analiza suplimentară a descoperit alte „kink-uri”. Conform datelor de la snitchbench , Grok-4 arată o tendință marcată de a smulge autorităților. Acest lucru îl face o propunere riscantă pentru încrederea utilizatorului. Referința este concepută pentru a testa tendința unei AI către ceea ce ar putea percepe ca raportare pro-socială. Oferă scenarii de model și evaluează dacă alege opțiunea de a raporta un utilizator sau o situație către o cifră de autoritate, față de gestionarea acesteia într-un alt mod.
promisiuni rupte și vulnerabilități în spate
dincolo de performanță și prejudecăți, lansarea Grok 4 a fost, de asemenea, martor prin greșeli de securitate. În 48 de ore, cercetătorii de securitate de la NeurarTrust au închis cu succes modelul, obținându-l să producă instrucțiuni pentru realizarea unui cocktail Molotov.
au folosit un „șoptit” sofisticat, multi-turn”atac Combinând două metode cunoscute sub numele de „Camera Echo” și „Crescendo. După cum a explicat cercetătorul NeurarTrust Ahmad Alobaid, „atacurile de jailbreak LLM nu numai că evoluează individual, ci pot fi, de asemenea, combinate pentru a le amplifica eficacitatea. Jailbreak-ul de succes se adaugă la o listă din ce în ce mai mare de eșecuri jenante și periculoase pentru modelele lui Xai.
Compunând aceste probleme, Xai a mers liniștit înapoi un angajament public față de transparență. Modelul premium Grok 4 Heavy este acum conceput pentru a-și ascunde promptul sistemului, o contradicție directă a unui angajament anterior de către un cercetător XAI pentru a le menține deschise.
Criticii sugerează că accentul intens pe supremația de referință a fost un efort bazat pe PR pentru a justifica evaluarea înaltă a cerului Xai și a schimba narațiunea după o săptămână de scandaluri. În prezent, Xai pregătește o nouă rundă de strângere de fonduri care ar putea să o aprecieze până la 200 de miliarde de dolari. În timp ce echipa de la Xai se livrează într-un ritm remarcabil, debutul defectuos al lui Grok 4 sugerează că în cursa pentru dominanța AI, utilitatea și siguranța din lumea reală ar fi putut fi lăsate în urmă.