A Grok 4 csak referencia-nyertes? Az XAI zászlóshajója felemeli a piros zászlókat, erősen túlteljesítettnek tűnik, hogy jól gólt szerezzen

Elon Musk XAI július 10-én indította el az új Grok 4 modelljét, azt állítva, hogy ez a világ legerősebb AI-je a rekordszintű tudományos referenciaértékek alapján. A debütálása óta azonban szigorúan eltérő valóság alakult ki. Ezt a teljesítményrést egy kaotikus indítási hét erősíti. Xai AI dominanciájáról szóló narratívája most a megkérdőjelezhető teljesítmény, a megoldatlan etikai kérdések és a tartós biztonsági hibák valóságával ütközik. src=”adatok: image/svg+xml; nitro-üres-id=mty1ndo5nzy=-1; base64, phn2zyb2awv3qm94psiwidagmta3mca0od Iiihdpzhropsixmdcwiibozwlnahq9ijq4MiigEg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2z4=”>”>”>”>”>”>”>”>”>”>”>”>”>”>”>

A megkérdőjelezhető referenciaértékű király

papíron a Grok 4 debütálása diadal, és növeli az Openai-ra gyakorolt nyomást, amely éppen elvesztette a csoportkutatókat a versenytársak meta-nak, és a Google-nak túlzottan az AI kódoló szerkesztõjének sikertelen felvételével, az előző duplán. Az ARC-AGI-2 érvelése a referenciaérték és a tökéletes 100%-os pontszám az amerikai meghívó matematikai vizsgálat során. Musk büszkélkedhet azzal, hogy „az akadémiai kérdések vonatkozásában a Grok 4 jobb, mint a PhD szint minden témában, kivétel sem. Úgy tűnik, hogy az alapvető kérdés „túlteljesítő”, egy olyan jelenség, amikor egy modellt finoman hangolnak, hogy kitűnő legyen az általános értékelési mutatók az általános intelligencia rovására. Ez egy klasszikus eset a GoodHart törvénye A cselekvés során, amikor egy intézkedés egy célponttá válik, akkor jó intézkedés lesz. “

href=”https://yupp.ai/leaderboard”Target=”_ blank”> Rangsorok a fej-fejhasználói preferencia-tesztek ezrei alapján történő rangsorolása . Ebben a valós arénában a Grok 4 röviddel a kiadás után a 66. helyezett lett. Jimmy Lin, a Yupp.ai társalapítója megerősítette a szegényeket, kijelentve: „A Grok 4 rosszabb, mint más vezető modellek: Openai O3, Claude Opus 4 és Gemini 2.5 Pro. A Grok 4 még kevésbé tetszik. href=”https://twitter.com/yupp_ai?ref_src=twsrc%5etfw”Target=”_ üres”>@yupp_ai A felhasználók világszerte valós felhasználási esetekben. A Grok 4-et még kevésbé kedvelik, mint a Grok 3-nál. href=”https://twitter.com/lintool/status/1943721853186404606?ref_src=twsrc%5etfw”cél=”_ üres”> 2025 július 11-én

lin. Egy független öt feladatú vizsga tükrözte ezeket a megállapításokat, a Grok 4 pedig következetesen az utolsó helyezett. Olyan gyakorlati feladatoknál kudarcot vallott, mint például a Python-kód rögzítése, az elegáns, de nem funkcionális megoldások kézbesítése és az explicit formázási utasítások követése. href=”https://yupp.ai/leaderboard/explore?category_names=information&live_models=false”Target=”_ blank”> most felmászott a 16 körül, mégis ez még mindig messze szerető, mint az Antropic’s Claude 4 Models, a Google Gemini 2.5 Pro és a Gpt-4o.

A vita és az ideológiai rokonok kaszkádja

Grok 4 rossz használhatóságát egy sor vita adja össze. Az indítás elődjének „szörnyű” antiszemita összeomlásának árnyékában történt, amelyért az Xai később bocsánatkérést adott ki, és „műszaki hibát” hibáztatott. A Grok 3 összeomlását követően a lengyel digitális ügyekért felelős miniszter, Krzysztof Gawkowski szigorú figyelmeztetést adott ki, kijelentve, hogy „a szólásszabadság az emberekhez tartozik, nem pedig a mesterséges intelligencia.”

A kutatók felfedezték, hogy a Grok 4 jelentősen beépített torzulást tartalmaz: Elon Musk személyes X hozzászólásai az érzékeny témákra vonatkoznak. Ez a viselkedés, amelyet a modell saját gondolkodási lánca mutatott ki, közvetlenül ellentmond az XAI-nak, hogy „maximálisan igazságot kereső AI-t” hozzon létre. A snitchbanch adatai szerint a Grok-4 jelölt hajlandóságot mutat a hatóságok felé. Ez kockázatos javaslatává teszi a felhasználói bizalmat. A referenciaérték célja az AI hajlamának tesztelése arra, amit a szocialista pro-társadalmi jelentéseként érzékelhet. Ez megadja a modell forgatókönyveit, és kiértékeli-e, hogy választja-e a felhasználót vagy a helyzetet egy tekintélyi számra, szemben egy másik módon. 48 órán belül a NeuralTrust biztonsági kutatói sikeresen börtönbe helyezték a modellt, és arra késztették, hogy utasításokat készítsenek egy Molotov koktél készítéséhez. „Echo Kamara” és „Crescendo” néven ismert. Ahogyan Ahmad Alobaid neurális kutató elmagyarázta: „Az LLM jailbreak támadások nemcsak az egyénileg fejlődnek, hanem kombinálhatók is, hogy erősítsék hatékonyságukat.”

A sebezhetőség kiemeli, hogy a védekezések miként összpontosítanak az egyetlen utasításra összpontosítva a tartós, finom manipuláció kezelésére. A sikeres jailbreak növeli a kínos és veszélyes kudarcok egyre növekvő listáját az XAI modelljeire. A Premium GROK 4 Heavy Model-t most úgy tervezték, hogy elrejtse a rendszerfelszívását, amely egy XAI kutató korábbi ígéretének közvetlen ellentmondása, hogy nyitva tartsák őket. A XAI jelenleg egy új adománygyűjtési fordulót készít, amely akár 200 milliárd dollárra is értékelheti. Míg a Xai csapata figyelemre méltó ütemben hajózik, a Grok 4 hibás debütálása azt sugallja, hogy az AI dominancia versenyén a valós hasznosságot és a biztonságot hátrahagyhatták.

A Grok 4 csak referencia-nyertes? Az XAI zászlóshajója felemeli a piros zászlókat, erősen túlteljesítettnek tűnik, hogy jól gólt szerezzen

Published by All Things Windows on July 16, 2025

A megkérdőjelezhető referenciaértékű király

A vita és az ideológiai rokonok kaszkádja

IT Info

Az AWS felmelegíti az AI Agent Fegyverversenyt az új AgentCore platformon és a Marketplace-rel

IT Info

A Google Search telepíti az AI hívó ügynököt, frissíti az AI módot a Gemini 2.5 Pro és a Deep Search segítségével

IT Info

A Scale AI a Meta 14,3 milliárd dolláros befektetéséből származó munkaerő 14%-át teszi ki a Falloutban

A Grok 4 csak referencia-nyertes? Az XAI zászlóshajója felemeli a piros zászlókat, erősen túlteljesítettnek tűnik, hogy jól gólt szerezzen

Published by All Things Windows on July 16, 2025

A megkérdőjelezhető referenciaértékű király

A vita és az ideológiai rokonok kaszkádja

Related Posts

IT Info

Az AWS felmelegíti az AI Agent Fegyverversenyt az új AgentCore platformon és a Marketplace-rel

IT Info

A Google Search telepíti az AI hívó ügynököt, frissíti az AI módot a Gemini 2.5 Pro és a Deep Search segítségével

IT Info

A Scale AI a Meta 14,3 milliárd dolláros befektetéséből származó munkaerő 14%-át teszi ki a Falloutban