L’XAI di
Elon Musk ha lanciato il suo nuovo modello Grok 4 il 10 luglio, sostenendo che era l’intelligenza artificiale più potente del mondo basata su parametri accademici da record. Tuttavia, dal suo debutto è emersa una realtà nettamente diversa dal suo debutto.
Analisti indipendenti e piattaforme di preferenza per utenti rivelano che il modello si comporta male negli scenari del mondo reale, suggerendo che è”eccessivo”ai test ACE ma manca di usabilità pratica. Questo divario di performance è amplificato da una caotica settimana di lancio.
Anche i ricercatori di jailbreat del modello entro 48 ore e hanno scoperto la sua tendenza a consultare le opinioni personali di Musk. La narrativa di Xai sul dominio dell’IA ora si sta scontrando con una realtà di prestazioni discutibili, questioni etiche irrisolte e difetti di sicurezza persistenti.
Un discutibile King di riferimento
sulla carta, il debutto di Grok 4 è un trionfo e aumenta la pressione su Openi, che ha appena perso un gruppo di gruppi per il concorrente e è stato superato da Google con un acquisizione fallita con i precedenti con il record di AI Windsurf. Il benchmark di ragionamento ARC-AGI-2 e segnare un perfetto 100% sull’esame di matematica degli inviti americani. Musk si vantava che”per quanto riguarda le domande accademiche, Grok 4 è migliore del livello di dottorato in ogni argomento, nessuna eccezione”.
Ma queste affermazioni sembrano rapidamente svelare sotto il controllo del mondo reale. Il problema principale sembra essere”eccessivo”, un fenomeno in cui un modello viene messo a punto per eccellere su metriche di valutazione specifiche a spese dell’intelligenza generale. È un caso classico di La legge di Goodhart in azione, dove una misura, quando diventa un obiettivo, si sente per essere una buona misura.”
questa piattaforma è scoraggiata in yup. href=”https://yupp.ai/leaderboard”Target=”_ blank”> classifica i modelli in base a migliaia di test di preferenza utente head-toad . In questa arena del mondo reale, Grok 4 è stato classificato un triste 66 ° poco dopo la sua uscita. Jimmy Lin, co-fondatore di Yupp.ai, ha confermato il povero spettacolo, affermando:”Grok 4 è peggio di altri modelli principali: Openai O3, Claude Opus 4 e Gemini 2.5 Pro. Grok 4 è apprezzato anche meno di Grok 3.”
Sono stati 36 ore da quando Grok 4 sono stati lanciati e abbiamo un versamento precoce in base a 6k+ BASSAZIONI+ href=”https://twitter.com/yupp_ai?ref_src=twsrc%5etfw”target=”_ blank”>@yupp_ai utenti globalmente su casi di utilizzo reale.
️ ️ Grok 4 è peggio di altri modelli principali: openai o3, Claude Opus 4 e gemini e gemini. Grok 4 è apprezzato anche meno di Grok 3. 🧵 pic.twitter.com/iui3wpc3hn
-jimmy lin (@lintool) 11 luglio, 2025
lin attribuito a bassa classificazione del modello rallentata. Un esame indipendente in cinque task rispecchiava questi risultati, con Grok 4 che si posiziona costantemente per ultimo. Non è riuscito a compiti pratici come il fissaggio del codice Python, offrendo soluzioni eleganti ma non funzionali e seguendo istruzioni esplicite di formattazione.
pochi giorni dopo, dopo 46.3k+ confronti degli utenti, il punteggio vitono href=”https://yupp.ai/leaderboard/explore?category_names=informational&live_models=false”Target=”_ blank”> è ora scalato per circa 16 , eppure il suo socre è ancora molto amante dei modelli Claude 4 di Anthopic, Google Gemini 2.5 e persino Gpt-4o.
Una cascata di controversie e nodi ideologici
La scarsa usabilità di Grok 4 è aggravata da una serie di controversie. Il lancio si è verificato all’ombra del”orribile”tracollo antisemitico del suo predecessore, per il quale Xai ha successivamente emesso scuse, incolpando un”bug tecnico”.
Il modello di comportamento irregolare ha innescato allarme internazionale. A seguito del crollo di Grok 3, il ministro degli affari digitali polacchi, Krzysztof Gawkowski, ha emesso un avvertimento severo, dichiarando che”la libertà di parola appartiene agli umani, non l’intelligenza artificiale.”
I ricercatori hanno anche scoperto come Grok 4 porterà un pregiudizio incorporato significativo: consulta Elon Musk X post per temi sensibili. Questo comportamento, rivelato dalla traccia della catena di pensiero del modello, contraddice direttamente l’obiettivo di Xai di creare un”AI in cerca di verità al massimo”.
Ulteriori analisi hanno scoperto altri riguardanti”Kinks”. Secondo i dati di snitchbench , GROK-4 mostra una marcata tendenza a fare un boccino alle autorità. Questo lo rende una proposta rischiosa per la fiducia dell’utente. Il benchmark è progettato per testare la tendenza di un’intelligenza artificiale verso ciò che potrebbe percepire come segnalazione pro-sociale. Fornisce gli scenari del modello e valuta se sceglie l’opzione di segnalare un utente o una situazione a una figura di autorità, rispetto a gestirlo in un altro modo.
Promise rotte e vulnerabilità backdoor
oltre le prestazioni e il bias, il lancio di Grok 4 è stato anche se una sicurezza. Entro 48 ore, i ricercatori di sicurezza di Neuraltrust avevano con successo il modello di jailbreak, facendolo produrre istruzioni per fare un cocktail Molotov.
Hanno usato un sofisticato, multi-giro”sussurrato”attacco di bue”Metodi noti come”Echo Chamber”e”Crescendo”. Questa tecnica manipola gradualmente il contesto conversazionale dell’intelligenza artificiale per aggirare i suoi filtri di sicurezza. Come ha spiegato il ricercatore di Neuraltrust Ahmad Alobaid,”Gli attacchi di jailbreak di LLM non si stanno solo evolvendo individualmente, ma possono anche essere combinati per amplificare la loro efficacia.”
La vulnerabilità evidenzia come le difese focalizzate su singoli prompt sono mal equipaggiati per gestire la manipolazione persistente e sottile. Il jailbreak di successo si aggiunge a un elenco crescente di fallimenti imbarazzanti e pericolosi per i modelli di Xai.
Compotenando questi problemi, Xai ha tornato in silenzio un impegno pubblico per la trasparenza. Il modello pesante premium Grok 4 è ora progettato per nascondere il suo prompt del sistema, una contraddizione diretta di un precedente impegno da parte di un ricercatore XAI per tenerli aperti.
I critici suggeriscono che l’intensa attenzione alla supremazia del benchmark è stata uno sforzo guidato da PR per giustificare la valutazione del cielo di Xai e cambiare la narrativa dopo una settimana di scandali. XAI sta attualmente preparando un nuovo round di raccolta fondi che potrebbe valorirlo fino a $ 200 miliardi. Mentre la squadra di Xai nava a un ritmo straordinario, il debutto imperfetto di Grok 4 suggerisce che in gara per il dominio dell’IA, l’utilità del mondo reale e la sicurezza potrebbero essere state lasciate indietro.