Grok 4 mbizotëron ditën 1 të AI të Google's Chess Arena, Claude Opus 4 dështon në mënyrë të mjerueshme vs Gemini 2.5 Pro, Deepseek i copëtuar nga O4-Mini

Më 5 gusht, Modelet Top AI nga Xai, Google dhe Openai shfaqën aftësitë e tyre strategjike në një turne të ri shahu. Mbajtur në arenën e re të lojës Kaggle të Google, ngjarja teston aftësitë e arsyetimit të AIS me qëllime të përgjithshme. Ditën e parë, Grok 4, Gemini 2.5 Pro, O4-Mini, dhe O3 të gjitha avancuar me 4-0 spastrime. Kjo lëvizje sinjalizon një zhvendosje nga standardet statike në mjedise dinamike, konkurruese. Ajo ofron një mënyrë të re për të matur aftësitë për zgjidhjen e problemeve të modeleve kryesore të gjuhës së madhe në botë. për të provuar AI. Nisma, në partneritet me Google Deepmind, adreson shqetësimet se testet tradicionale janë të pamjaftueshme për matjen e përparimit të vërtetë të AI dhe rrugën e saj drejt inteligjencës së përgjithshme artificiale. Turneu i shahut që përmban tetë LLM udhëheqës. Rreshtimi përfshin Google’s Binjakët 2.5 Pro dhe Flash, O3-Mini të Openai dhe O4-Mini, Claude 4 Opus të Antropikut, Grok 4, Deepseek-R1 të Xai, dhe Kimi Kimi të Moonshot. Modelet duhet të mbështeten në arsyetimin e tyre, pa qasje në motorët e shahut. Ndërsa fituesit-Grok 4, Gemini 2.5 Pro, O4-Mini, dhe O3-të gjithë përparuan pastër, natyra e fitoreve të tyre nxori në pah boshllëqet e rëndësishme dhe befasuese në aftësitë e modeleve për të luajtur lojën. Në një shfaqje zbuluese të dobësisë themelore, Kimi K2 humbi të katër lojërat pasi nuk arriti të prodhojë një veprim ligjor brenda katër përpjekjeve të tij.

Asnjë nga lojërat nuk zgjati më shumë se tetë lëvizje. Analiza sugjeron që Kimi K2 mund të pasojë teorinë e hapjes për disa lëvizje, por posa të ishte në territor të panjohur, kuptimi i saj në lojë u shpërbë, herë pas here duke harruar se si pjesët lëvizin ose keqkuptojnë vendndodhjen e copave në tabelë plotësisht. Kjo konkurs u përshkrua si”e çuditshme”, e karakterizuar nga momente të një loje të fortë, të ngjashme me njeriun, i cili papritmas do të shpërndahej në një seri të gabimeve dhe halucinacioneve nga të dy anët. Përmbajtja]

Beteja midis Gemini 2.5 Pro dhe Claude 4 Opus ishte e vetmja që paraqiste më shumë lojëra që përfunduan në Checkmate sesa në konfiskimet. Sidoqoftë, ishte e paqartë se sa nga rezultati ishte për shkak të acumenit të shahut të Gemini kundrejt lojës së dobët të Claude 4 Opus. Edhe me një avantazh masiv, Gemini 2.5 Pro tregoi kufizimet e veta, duke varur pjesë në rrugën e saj për të dhënë kontrollin përfundimtar. Ndërsa kundërshtari i saj bëri pjesën e tij të gabimeve, Grok 4 u shfaq shumë më i qëllimshëm në strategjinë e tij, duke identifikuar dhe kapitalizuar vazhdimisht në copa të padëshiruara sesa thjesht duke pritur gabime. Musk gjithashtu tha që Xai”kaloi pothuajse asnjë përpjekje për shahun”kur trajnoi Grok 4, duke e thirrur performancën relativisht të mirë një”efekt anësor”. Benchmark për AI me qëllime të përgjithshme AI

Ndërsa motorët e specializuar si

Kjo do të sigurojë një pikë referimi më rigoroz me kalimin e kohës. Siç shpjegoi Meg Risdal i Kaggle,”Ndërsa turneu është një mënyrë argëtuese për të spektuar… drejtuesi i fundit do të përfaqësojë standardin rigoroz të aftësive të modeleve në shah që ne i mbajmë me kalimin e kohës.”Game Arena planifikon të zgjerohet në lojëra të tjera si Go dhe Werewolf për të provuar aspekte të ndryshme të arsyetimit të AI. Turneu vazhdon me gjysmëfinalen më 6 gusht.

Grok 4 mbizotëron ditën 1 të AI të Google’s Chess Arena, Claude Opus 4 dështon në mënyrë të mjerueshme vs Gemini 2.5 Pro, Deepseek i copëtuar nga O4-Mini

Published by All Things Windows on August 6, 2025

IT Info

AMD tani drejton modelet masive të GPT-OSS të Openai në konsumatorin Ryzen AI dhe Radeon Hardware

IT Info

GitHub Leak zbulon GPT-5 të Openai dhe katër modele të reja përpara fillimit zyrtar

IT Info

Google mbron kërkimin e AI me pretendimin e”klikimeve të cilësisë”pasi botuesit raportojnë kolapsin e trafikut

Grok 4 mbizotëron ditën 1 të AI të Google’s Chess Arena, Claude Opus 4 dështon në mënyrë të mjerueshme vs Gemini 2.5 Pro, Deepseek i copëtuar nga O4-Mini

Published by All Things Windows on August 6, 2025

Related Posts

IT Info

AMD tani drejton modelet masive të GPT-OSS të Openai në konsumatorin Ryzen AI dhe Radeon Hardware

IT Info

GitHub Leak zbulon GPT-5 të Openai dhe katër modele të reja përpara fillimit zyrtar

IT Info

Google mbron kërkimin e AI me pretendimin e”klikimeve të cilësisë”pasi botuesit raportojnë kolapsin e trafikut