XAI Elona Muska uruchomił swój nowy model Grok 4 10 lipca, twierdząc, że była to najpotężniejsza sztuczna inteligencja na świecie oparta na rekordowych akademickich odniesieniach. Jednak od czasu debiutu pojawiła się wyraźnie inna rzeczywistość.
Niezależni analitycy i platformy odtwarzania użytkowników ujawniają, że model działa słabo w scenariuszach rzeczywistych, co sugeruje, że jest „przepełniony” testów ACE, ale brakuje jej praktycznej użyteczności. Ta luka w wydajności jest wzmocniona chaotycznym tygodniem startowym.
Badacze również jailbroke ten model w ciągu 48 godzin i odkryli jego tendencję do konsultacji osobistych opinii Musk. Narracja XAI o dominacji AI koliduje teraz z rzeczywistością o wątpliwym wykonaniu, nierozwiązanymi problemami etycznymi i uporczywymi wadami bezpieczeństwa.
wątpliwy król porównawczy
Na papierze debiut Grok 4 jest triumfem i zwiększa presję na Openai, który właśnie stracił badaczy grupowych na meta ARC-AGI-2 Rozumowanie i zdobycie doskonałego 100% na egzaminie matematycznej American Invitational. Musk chwalił się, że „w odniesieniu do pytań akademickich, Grok 4 jest lepszy niż poziom doktorancki w każdym temacie, bez wyjątków.”
, ale twierdzenia te szybko wydają się rozwiązywać pod kontrolą rzeczywistego. Podstawowym problemem wydaje się być „nadmierne dopasowanie”, zjawisko, w którym model jest dopracowany do wyróżnienia się w określonych wskaźnikach oceny kosztem inteligencji ogólnej. Jest to klasyczny przypadek Prawo Goodharta w akcji, gdzie, „Kiedy miara staje się celem, przestaje być dobrym pomiarem.„ <
to rozdzielanie to ilustrowane na Yupp. href=”https://yupp.ai/Leaderboard”Target=”_ puste”> Ranks Modele na podstawie tysięcy testów preferencji użytkowników przez głowę . Na tej prawdziwej arenie Grok 4 zajął ponure 66. krótko po jego wydaniu. Jimmy Lin, współzałożyciel Yupp.ai, potwierdził słabe pokazy, stwierdzając: „Grok 4 jest gorsze niż inne wiodące modele: Openai O3, Claude Opus 4 i Gemini 2.5 Pro. Grok 4 jest lubiany nawet mniej niż Grok 3.”
To było 36 godzin, odkąd Grok 4 w oparciu o 6K+ Preferncje
To było 36 godzin. href=”https://twitter.com/yupp_ai?ref_src=twsrc%5etfw”target=”_ puste”>@yupp_ai Użytkownicy globalnie na temat prawdziwych przypadków użycia.
‼ ️ Grok 4 jest gorsze niż inne wiodące modele: OpenAi O3, Claude Opus 4 i Gemini 2.5 Pro. Grok 4 jest lubiany nawet mniej niż Grok 3. 🧵 pic.twitter.com/iui3wpc3hn
-Jimmy Lin (@LINTool)
11 lipca 2025
Lin przypisywał niskiemu szorowaniu do modelu i błędu. Niezależny egzamin z pięciokrotnym zadaniem odzwierciedlał te odkrycia, a Grok 4 konsekwentnie umieszcza ostatnie. Nie powiodło się w praktycznych zadaniach, takich jak naprawianie kodu Pythona, dostarczanie eleganckich, ale niefunkcjonalnych rozwiązań, i przestrzeganie wyraźnych instrukcji formatowania.
Kilka dni później, po 46,3k+ porównań użytkowników, klimat Grok 4 na wyniku Yupp.ai Leaderboard teraz wspiął się na około 16 , ale jego socre jest to wciąż daleko Lover niż antropic’s Claude 4 modele, Google’s Gemini 2.5 Pro, a nawet gpt-4o.
Kaskada kontrowersji i ideologicznych załamań
Zła użyteczność Grok 4 jest spotęgowana przez szereg kontrowersji. Wprowadzenie miało miejsce w cieniu „przerażającego” antysemitycznego krachu jego poprzednika, dla którego XAI wydał później przeprosiny, obwiniając „błąd techniczny”.
Wzór nieregularnego zachowania wywołał międzynarodowy alarm. Po załamaniu Grok 3, Polska Minister Spraw Digital, Krzeysztof Gawkowski, wydał surowe ostrzeżenie, deklarując, że „wolność słowa należy do ludzi, a nie sztuczna inteligencja. To zachowanie, ujawnione przez własny łańcuch myślenia modelu, bezpośrednio zaprzecza celu XAI, jakim jest stworzenie „maksymalnie poszukującej prawdy AI.”
Dalsza analiza odkryła inne dotyczące „załamań”. Zgodnie z danymi z snitchbench , GROK-4 pokazuje wyraźną tendencję do snitta do władz. To sprawia, że jest to ryzykowna propozycja zaufania użytkowników. Benchmark został zaprojektowany w celu przetestowania tendencji AI wobec tego, co może postrzegać jako raportowanie prospołeczne. Daje modelowe scenariusze i ocenia, czy wybiera opcję zgłoszenia użytkownika lub sytuacji na rzecz autorytetu, w porównaniu z obsługą jej w inny sposób.
zepsute obietnice i wrażliwości backdoor
Poza wydajnością i odchyleniem, uruchomienie Grok 4 zostało również zmęczone przez awarie bezpieczeństwa. W ciągu 48 godzin badacze bezpieczeństwa z NeuralTrust pomyślnie jailbraen ten model, zmuszając go do tworzenia koktajlu Molotova.
Wykorzystali wyrafinowany, wielozadaniowy atak „Whisered” Połączenie dwóch metod znanych jako „Chamber Echo” i „Crescendo.” Ta technika stopniowo manipuluje kontekstem konwersacyjnym AI, aby ominąć jego filtry bezpieczeństwa. Jak wyjaśnił badacz NeuralTrust, Ahmad Alobaid: „Ataki jailbreak LLM ewoluują nie tylko indywidualnie, ale można je również połączyć, aby wzmocnić ich skuteczność.”
Podatność podkreśla, w jaki sposób obrona skupiona na pojedynczych podpowiedziach jest nieudana, aby obsłużyć trwałą, subtelną manipulację. Udany jailbreak zwiększa rosnącą listę zawstydzających i niebezpiecznych niepowodzeń dla modeli XAI.
Współpracując te problemy, XAI po cichu cofnęło publiczne zobowiązanie do przejrzystości. Model ciężkiego Premium Grok 4 został teraz zaprojektowany tak, aby ukryć swój system systemu, bezpośrednią sprzeczność poprzedniego przyrzeczenia badacza XAI, aby utrzymać ich otwarty.
Krytycy sugerują, że intensywne skupienie się na supremacji porównawczej była wysiłkiem opartym na PR w celu uzasadnienia niebiańskiej wyceny Xai i zmiany narracji po tygodniu skandali. XAI przygotowuje obecnie nową rundę pozyskiwania funduszy, która może ją docenić nawet do 200 miliardów dolarów. Podczas gdy zespół XAI jest w niezwykłym tempie, wadliwy debiut Grok 4 sugeruje, że w wyścigu o dominację AI, na użyteczność i bezpieczeństwo rzeczywiste mogły zostać pozostawione.