A Grok 4 uralja a Google AI sakk-arénájának 1. napját, a Claude Opus 4 hibás módon, szemben a Gemini 2.5 Pro-val, az O4-Mini összetört

augusztus 5-én az Xai, a Google és az Openai legnépszerűbb modelljei bemutatták stratégiai készségeiket egy új sakkversenyen. A Google új Kaggle Game Arénában tartott esemény teszteli az általános célú AI-k érvelési képességeit. Az első napon a GROK 4, a Gemini 2.5 Pro, az O4-Mini és az O3 mindegyike 4-0-os seprőkkel fejlett. Ez a lépés jelzi a statikus referenciaértékekről a dinamikus, versenykörnyezetre való áttérést. Új módszert kínál a világ vezető nagy nyelvi modelljeinek problémamegoldó képességeinek mérésére. AI tesztelése. A kezdeményezés, a Google DeepMind-szel együttműködve, az aggodalmakkal foglalkozik, hogy a hagyományos tesztek nem elegendőek a valódi AI előrehaladás és a mesterséges általános intelligencia felé vezető útjának méréséhez. A bajnokság nyolc vezető LLM-rel. A felállás magában foglalja a Google Gemini 2.5 Pro and Flash, az Openai O3 és O4-Mini, az Antropic’s Claude 4 Opus, az Xai Grok 4, a DeepSeek-R1 és a Moonshot Kimi K2. A modelleknek a saját érvelésükre kell támaszkodniuk, a sakkmotorokhoz való hozzáférés nélkül. Míg a győztesek-a Grok 4, a Gemini 2.5 Pro, az O4-Mini és az O3-tisztán fejlett, a győzelmeik jellege kiemelte a modellek játékának képességeinek jelentős és meglepő hiányosságait. Az alapvető gyengeség felfedő megjelenésekor a Kimi K2 mind a négy játékot elveszítette, miután négy kísérletében nem sikerült törvényes lépést hozni.

A játékok egyike sem tartott több mint nyolc lépést. Az elemzés azt sugallja, hogy a kimi K2 néhány lépésnél követheti a nyitóelméletet, de amint ismeretlen területen volt, a játék felfogása szétesik, időnként elfelejtve, hogy a darabok hogyan mozognak, vagy tévesen értelmezik a táblák helyét. Ezt a versenyt „bizarrnak” írták le, amelyet az erős, emberiszerű nyitójáték pillanata jellemez, amely hirtelen mindkét oldalról hibás és hallucinációk sorozatává válna. Tartalom]

A Gemini 2.5 Pro és a Claude 4 Opus közötti csata volt az egyetlen, aki több játékot mutatott be, amely a Checkmate-vel végződik, mint a veszteségeknél. Nem volt világos azonban, hogy az eredmények mekkora része volt az Ikrek sakk-akumenje miatt, szemben a Claude 4 Opus rossz játékával. A Gemini 2.5 Pro még egy hatalmas előnye mellett is megmutatta saját korlátozásait, lógva a végső ellenőrzőmatus kézbesítéséhez. Miközben ellenfele megsértette a hibákat, a Grok 4 sokkal szándékosabbnak tűnt stratégiájában, következetesen azonosítva és kihasználva a nem védett darabokat, ahelyett, hogy egyszerűen hibákat várt volna. Pézsma azt is mondta: , hogy Xai „szinte sem töltött erőfeszítést a sakkra”, amikor a Grok 4-et képezi, a viszonylag jó teljesítményt egy „oldalhatás”. Benchmark az általános célú AI

számára, míg a speciális motorok, mint a

Ez idővel szigorúbb referenciaértéket biztosít. Ahogyan Kaggle Meg Risdal elmagyarázta: „Noha a verseny egy szórakoztató módszer a látáshoz… A végső ranglistán a modellek a sakkban való képességeinek szigorú referenciaértékét képviselik, amelyet az idő múlásával fenntartunk.” A Game Aréna azt tervezi, hogy más játékokra terjed ki, mint például a Go és a Werwolf, hogy tesztelje az AI érvelés különböző aspektusait. A verseny augusztus 6-án folytatódik az elődöntővel.

A Grok 4 uralja a Google AI sakk-arénájának 1. napját, a Claude Opus 4 hibás módon, szemben a Gemini 2.5 Pro-val, az O4-Mini összetört

Published by All Things Windows on August 6, 2025

IT Info

Elon Musk az Xai’s Grok 4-es, kihívást jelentő Openai bajba jutott GPT-5 indítását

IT Info

Javítás: A helyesírás-ellenőrzés nem működik új csapatokban.

IT Info

Hogyan lehet megváltoztatni a valuta formátumot a Windows 11-ben

A Grok 4 uralja a Google AI sakk-arénájának 1. napját, a Claude Opus 4 hibás módon, szemben a Gemini 2.5 Pro-val, az O4-Mini összetört

Published by All Things Windows on August 6, 2025

Related Posts

IT Info

Elon Musk az Xai’s Grok 4-es, kihívást jelentő Openai bajba jutott GPT-5 indítását

IT Info

Javítás: A helyesírás-ellenőrzés nem működik új csapatokban.

IT Info

Hogyan lehet megváltoztatni a valuta formátumot a Windows 11-ben