A
augusztus 5-én az Xai, a Google és az Openai legnépszerűbb modelljei bemutatták stratégiai készségeiket egy új sakkversenyen. A Google új Kaggle Game Arénában tartott esemény teszteli az általános célú AI-k érvelési képességeit. Az első napon a GROK 4, a Gemini 2.5 Pro, az O4-Mini és az O3 mindegyike 4-0-os seprőkkel fejlett. Ez a lépés jelzi a statikus referenciaértékekről a dinamikus, versenykörnyezetre való áttérést. Új módszert kínál a világ vezető nagy nyelvi modelljeinek problémamegoldó képességeinek mérésére. AI tesztelése. A kezdeményezés, a Google DeepMind-szel együttműködve, az aggodalmakkal foglalkozik, hogy a hagyományos tesztek nem elegendőek a valódi AI előrehaladás és a mesterséges általános intelligencia felé vezető útjának méréséhez. A bajnokság nyolc vezető LLM-rel. A felállás magában foglalja a Google Gemini 2.5 Pro and Flash, az Openai O3 és O4-Mini, az Antropic’s Claude 4 Opus, az Xai Grok 4, a DeepSeek-R1 és a Moonshot Kimi K2. A modelleknek a saját érvelésükre kell támaszkodniuk, a sakkmotorokhoz való hozzáférés nélkül. Míg a győztesek-a Grok 4, a Gemini 2.5 Pro, az O4-Mini és az O3-tisztán fejlett, a győzelmeik jellege kiemelte a modellek játékának képességeinek jelentős és meglepő hiányosságait. Az alapvető gyengeség felfedő megjelenésekor a Kimi K2 mind a négy játékot elveszítette, miután négy kísérletében nem sikerült törvényes lépést hozni.
A játékok egyike sem tartott több mint nyolc lépést. Az elemzés azt sugallja, hogy a kimi K2 néhány lépésnél követheti a nyitóelméletet, de amint ismeretlen területen volt, a játék felfogása szétesik, időnként elfelejtve, hogy a darabok hogyan mozognak, vagy tévesen értelmezik a táblák helyét. Ezt a versenyt „bizarrnak” írták le, amelyet az erős, emberiszerű nyitójáték pillanata jellemez, amely hirtelen mindkét oldalról hibás és hallucinációk sorozatává válna. Tartalom]
A Gemini 2.5 Pro és a Claude 4 Opus közötti csata volt az egyetlen, aki több játékot mutatott be, amely a Checkmate-vel végződik, mint a veszteségeknél. Nem volt világos azonban, hogy az eredmények mekkora része volt az Ikrek sakk-akumenje miatt, szemben a Claude 4 Opus rossz játékával. A Gemini 2.5 Pro még egy hatalmas előnye mellett is megmutatta saját korlátozásait, lógva a végső ellenőrzőmatus kézbesítéséhez. Miközben ellenfele megsértette a hibákat, a Grok 4 sokkal szándékosabbnak tűnt stratégiájában, következetesen azonosítva és kihasználva a nem védett darabokat, ahelyett, hogy egyszerűen hibákat várt volna. Pézsma azt is mondta: , hogy Xai „szinte sem töltött erőfeszítést a sakkra”, amikor a Grok 4-et képezi, a viszonylag jó teljesítményt egy „oldalhatás”. Benchmark az általános célú AI