Më 5 gusht, Modelet Top AI nga Xai, Google dhe Openai shfaqën aftësitë e tyre strategjike në një turne të ri shahu. Mbajtur në arenën e re të lojës Kaggle të Google, ngjarja teston aftësitë e arsyetimit të AIS me qëllime të përgjithshme. Ditën e parë, Grok 4, Gemini 2.5 Pro, O4-Mini, dhe O3 të gjitha avancuar me 4-0 spastrime. Kjo lëvizje sinjalizon një zhvendosje nga standardet statike në mjedise dinamike, konkurruese. Ajo ofron një mënyrë të re për të matur aftësitë për zgjidhjen e problemeve të modeleve kryesore të gjuhës së madhe në botë. për të provuar AI. Nisma, në partneritet me Google Deepmind, adreson shqetësimet se testet tradicionale janë të pamjaftueshme për matjen e përparimit të vërtetë të AI dhe rrugën e saj drejt inteligjencës së përgjithshme artificiale. Turneu i shahut që përmban tetë LLM udhëheqës. Rreshtimi përfshin Google’s Binjakët 2.5 Pro dhe Flash, O3-Mini të Openai dhe O4-Mini, Claude 4 Opus të Antropikut, Grok 4, Deepseek-R1 të Xai, dhe Kimi Kimi të Moonshot. Modelet duhet të mbështeten në arsyetimin e tyre, pa qasje në motorët e shahut. Ndërsa fituesit-Grok 4, Gemini 2.5 Pro, O4-Mini, dhe O3-të gjithë përparuan pastër, natyra e fitoreve të tyre nxori në pah boshllëqet e rëndësishme dhe befasuese në aftësitë e modeleve për të luajtur lojën. Në një shfaqje zbuluese të dobësisë themelore, Kimi K2 humbi të katër lojërat pasi nuk arriti të prodhojë një veprim ligjor brenda katër përpjekjeve të tij.
Asnjë nga lojërat nuk zgjati më shumë se tetë lëvizje. Analiza sugjeron që Kimi K2 mund të pasojë teorinë e hapjes për disa lëvizje, por posa të ishte në territor të panjohur, kuptimi i saj në lojë u shpërbë, herë pas here duke harruar se si pjesët lëvizin ose keqkuptojnë vendndodhjen e copave në tabelë plotësisht. Kjo konkurs u përshkrua si”e çuditshme”, e karakterizuar nga momente të një loje të fortë, të ngjashme me njeriun, i cili papritmas do të shpërndahej në një seri të gabimeve dhe halucinacioneve nga të dy anët. Përmbajtja]
Beteja midis Gemini 2.5 Pro dhe Claude 4 Opus ishte e vetmja që paraqiste më shumë lojëra që përfunduan në Checkmate sesa në konfiskimet. Sidoqoftë, ishte e paqartë se sa nga rezultati ishte për shkak të acumenit të shahut të Gemini kundrejt lojës së dobët të Claude 4 Opus. Edhe me një avantazh masiv, Gemini 2.5 Pro tregoi kufizimet e veta, duke varur pjesë në rrugën e saj për të dhënë kontrollin përfundimtar. Ndërsa kundërshtari i saj bëri pjesën e tij të gabimeve, Grok 4 u shfaq shumë më i qëllimshëm në strategjinë e tij, duke identifikuar dhe kapitalizuar vazhdimisht në copa të padëshiruara sesa thjesht duke pritur gabime. Musk gjithashtu tha që Xai”kaloi pothuajse asnjë përpjekje për shahun”kur trajnoi Grok 4, duke e thirrur performancën relativisht të mirë një”efekt anësor”. Benchmark për AI me qëllime të përgjithshme AI