Grok 4 este doar un câștigător de referință? Modelul-pilot al lui Xai ridică steaguri roșii, pare foarte mult suprasolicitat pentru a marca bine

Xai de la Elon Musk a lansat noul său model Grok 4 pe 10 iulie, susținând că a fost cea mai puternică AI din lume bazată pe valori de referință academice record. Cu toate acestea, a apărut o realitate extrem de diferită de la debutul său.

analiștii independenți și platformele de preferință a utilizatorilor dezvăluie că modelul funcționează slab în scenarii din lumea reală, ceea ce sugerează că este „suprafinit” pentru testele ACE, dar nu are o utilizare practică. Acest decalaj de performanță este amplificat de o săptămână de lansare haotică.

Cercetătorii au închis modelul în 48 de ore și și-au descoperit tendința de a consulta opiniile personale ale lui Musk. Narațiunea lui Xai despre dominanța AI se ciocnește acum cu o realitate a performanței discutabile, a problemelor etice nerezolvate și a defectelor de securitate persistente.

Un referință de referință discutabilă

Pe hârtie, debutul lui Grok 4 este un triumf și crește presiunea asupra lui OpenAI, care tocmai a pierdut un cercetător de grup la meta concurentă și a fost depășit de Google cu o preluare eșuată a editorului de codificare AI, în testele dificile, aproape dublu. Arc-AGI-2 RETARMENTAREA MOTIVERULUI ȘI PRECAREA UNUI 100% PERFECTĂ LA EXAMENUL AMERICAN DE MATEMATICĂ INVITATIONALĂ. Musk s-a lăudat că „în ceea ce privește întrebările academice, Grok 4 este mai bun decât nivelul de doctorat în fiecare subiect, fără excepții. Problema de bază pare a fi „suprafintită”, un fenomen în care un model este reglat bine pentru a excela asupra valorilor de evaluare specifice în detrimentul inteligenței generale. Este un caz clasic de Legea lui Goodhart În acțiune, unde, „Când o măsură devine o țintă, încetează să fie o măsură bună.”

această disconectare este ilustrată în mod stard pe yupp.ai, o platformă? href=”https://yupp.ai/leaderboard”target=”_ blank”> clasifică modele bazate pe mii de teste de preferință a utilizatorului din cap la cap . În această arenă din lumea reală, Grok 4 a fost clasat pe locul 66, la scurt timp după eliberare. Jimmy Lin, co-fondator al Yupp.ai, a confirmat arătarea slabă, afirmând: „Grok 4 este mai rău decât alte modele de frunte: Openai O3, Claude Opus 4 și Gemini 2.5 Pro. Grok 4 este plăcut chiar mai puțin decât Grok 3. href=”https://twitter.com/yupp_ai?ref_src=twsrc%5etfw”target=”_ blank”>@yupp_ai Utilizatori la nivel global pe cazuri de utilizare reală.

‼ ️ Grok 4 este mai rău decât alte modele de conducere: Openai O3, Claude Opus 4, și GEMINI 2.5 Pro. Grok 4 este plăcut chiar mai puțin decât Grok 3. 🧵 pic.twitter.com/iui3wpc3hn

-Jimmy Lin (@LINTOOL) 11 iulie 2025

Lin a atribuit rangul scăzut al modelului lent și a erorii. Un examen independent cu cinci sarcini a reflectat aceste descoperiri, cu Grok 4 plasând constant ultima. Acesta a eșuat la sarcini practice, cum ar fi remedierea codului Python, furnizarea de soluții elegante, dar nefuncționale și urmând instrucțiuni explicite de formatare.

Câteva zile mai târziu, după 46,3K+ comparații ale utilizatorilor, scorul Vibe Grok 4 pe clasamentul Yupp.ai a urcat acum pentru a se clasifica în jur de 16 , cu toate acestea, socrul său acesta este încă mult mai mult decât antropic Claude 4 modele, Google Gemini 2.5 Pro și chiar GPT-4O.

O cascadă de controverse și kink-uri ideologice

Utilizabilitatea slabă a lui Grok 4 este compusă de o serie de controverse. Lansarea s-a produs în umbra derulării antisemitice a predecesorului său, pentru care Xai a emis ulterior o scuză, învinovățind o „eroare tehnică”. În urma topirii lui Grok 3, ministrul Afacerilor Digitale din Polonia, Krzysztof Gawkowski, a emis un avertisment sever, declarând că „Libertatea de exprimare aparține oamenilor, nu inteligenței artificiale.”

Cercetătorii au descoperit, de asemenea, modul în care Grok 4 pornește o părtinire semnificativă încorporată: consultă Elon Musk X Posts pentru răspunsuri pe texuri sensibile. Acest comportament, dezvăluit de propriul urmă de lanț de gândire a modelului, contrazice direct obiectivul lui Xai de a crea o „AI maximă de adevăr care caută adevăr”.

Analiza suplimentară a descoperit alte „kink-uri”. Conform datelor de la snitchbench , Grok-4 arată o tendință marcată de a smulge autorităților. Acest lucru îl face o propunere riscantă pentru încrederea utilizatorului. Referința este concepută pentru a testa tendința unei AI către ceea ce ar putea percepe ca raportare pro-socială. Oferă scenarii de model și evaluează dacă alege opțiunea de a raporta un utilizator sau o situație către o cifră de autoritate, față de gestionarea acesteia într-un alt mod.

promisiuni rupte și vulnerabilități în spate

dincolo de performanță și prejudecăți, lansarea Grok 4 a fost, de asemenea, martor prin greșeli de securitate. În 48 de ore, cercetătorii de securitate de la NeurarTrust au închis cu succes modelul, obținându-l să producă instrucțiuni pentru realizarea unui cocktail Molotov.

au folosit un „șoptit” sofisticat, multi-turn”atac Combinând două metode cunoscute sub numele de „Camera Echo” și „Crescendo. După cum a explicat cercetătorul NeurarTrust Ahmad Alobaid, „atacurile de jailbreak LLM nu numai că evoluează individual, ci pot fi, de asemenea, combinate pentru a le amplifica eficacitatea. Jailbreak-ul de succes se adaugă la o listă din ce în ce mai mare de eșecuri jenante și periculoase pentru modelele lui Xai.

Compunând aceste probleme, Xai a mers liniștit înapoi un angajament public față de transparență. Modelul premium Grok 4 Heavy este acum conceput pentru a-și ascunde promptul sistemului, o contradicție directă a unui angajament anterior de către un cercetător XAI pentru a le menține deschise.

Criticii sugerează că accentul intens pe supremația de referință a fost un efort bazat pe PR pentru a justifica evaluarea înaltă a cerului Xai și a schimba narațiunea după o săptămână de scandaluri. În prezent, Xai pregătește o nouă rundă de strângere de fonduri care ar putea să o aprecieze până la 200 de miliarde de dolari. În timp ce echipa de la Xai se livrează într-un ritm remarcabil, debutul defectuos al lui Grok 4 sugerează că în cursa pentru dominanța AI, utilitatea și siguranța din lumea reală ar fi putut fi lăsate în urmă.

Grok 4 este doar un câștigător de referință? Modelul-pilot al lui Xai ridică steaguri roșii, pare foarte mult suprasolicitat pentru a marca bine

Published by All Things Windows on July 16, 2025

Un referință de referință discutabilă

O cascadă de controverse și kink-uri ideologice

promisiuni rupte și vulnerabilități în spate

IT Info

Cum să activați modul TTY în echipele Microsoft

IT Info

Căutare Google implementează AI Calling Agent, actualizează modul AI cu Gemini 2.5 Pro și căutare profundă

IT Info

Cum să ștergeți sau să ștergeți pageFile.Sys la oprirea în Windows 11 și 10

Grok 4 este doar un câștigător de referință? Modelul-pilot al lui Xai ridică steaguri roșii, pare foarte mult suprasolicitat pentru a marca bine

Published by All Things Windows on July 16, 2025

Un referință de referință discutabilă

O cascadă de controverse și kink-uri ideologice

promisiuni rupte și vulnerabilități în spate

Related Posts

IT Info

Cum să activați modul TTY în echipele Microsoft

IT Info

Căutare Google implementează AI Calling Agent, actualizează modul AI cu Gemini 2.5 Pro și căutare profundă

IT Info

Cum să ștergeți sau să ștergeți pageFile.Sys la oprirea în Windows 11 și 10