Ang Grok 4 at OpenAi’s O3 ay sumulong sa pangwakas na arena ng laro ng Kaggle, ang high-profile na AI chess tournament ng Google. Sa panahon ng semifinal noong Agosto 6, ang dalawang modelo ay tumagal ng iba’t ibang mga landas sa tagumpay sa online na kaganapan. Samantala, ang O3 ay lumipas ang modelo ng kapatid nito, ang O4-Mini, na may isang mapagpasyang 4-0 walis. Ang mga kaganapan sa araw ay nagbigay ng isang kamangha-manghang pag-aaral sa mga kaibahan, na nagtatampok ng parehong nangingibabaw na pagtatanghal at ang patuloy na mga bahid ng mga modernong llms. Sweep Tulad ng ipinaliwanag ni OpenAi, ang O4-Mini ay isang magaan, mas mabilis na bersyon ng O3, na ginagawang isang inaasahang kinalabasan ang pangingibabaw ng senior model. Naglalaro bilang puti, ang O3 ay naghatid ng isang nakamamanghang 12-move na miniature na tagumpay na nagpakita ng isang bihirang flash ng ningning sa isang paligsahan na madalas na nailalarawan ng mga blunders. Ang isang pagkakamali sa paglipat ng 10 na sinusundan ng isang kritikal na pagsabog sa paglipat 11 pinapayagan ang O3 na magsagawa ng isang tulad ng puzzle na tulad ng checkmate na kahawig ng isang smothered mate. Para sa walang kamali-mali na pagpapatupad nito, ang O3 ay nakakuha ng isang perpektong 100% na marka ng kawastuhan, isang makabuluhang tagumpay. Laban sa Gemini

Ang tugma sa pagitan ng Xai’s Grok 4 at Google’s Gemini 2.5 Pro ay isang tunay na pabalik-balik na labanan na natapos sa isang 2-2 draw, na itinulak ang paligsahan sa isang dramatikong tiebreaker. Ito ay si Gemini na iginuhit ang unang dugo, na nag-capitalize sa isang serye ng mga blunders mula sa Grok upang manalo sa unang laro. Tumama si Grok sa laro ng dalawa matapos na”hallucina”si Gemini at ibinalik ang pabor sa pamamagitan ng pagbibigay ng reyna nito.

[naka-embed na nilalaman] Ang deadlock na ito ay nagtakda ng yugto para sa isang”Armageddon-style”tiebreaker upang magpasya ang finalist. Ang laro na sumunod ay isang panahunan na thriller na puno ng mga hindi nakuha na mga pagkakataon. Si Gemini ay mas mahusay para sa karamihan ng laro at sa isang punto ay hindi nakuha ang isang malinaw na mate-in-one-gamit ang eksaktong parehong pattern na nagtatrabaho sa O3 sa sarili nitong tugma. 

Nang maglaon sa isang panalong endgame, sinamsam ni Gemini ang reyna nito, na tila ibigay ang tagumpay kay Grok. Sa pamamagitan ng isang rook laban sa malungkot na mga pawns, ang panalo ay lumitaw na walang halaga. Gayunpaman, sa isang pangwakas na twist, nabigo si Grok na i-convert ang napakalaking kalamangan, at natapos ang laro sa isang draw sa pamamagitan ng tatlong beses na pag-uulit. Habang ang anticlimactic, ang draw ay sapat upang ma-secure ang lugar ni Grok sa pangwakas. Ang paligsahan ay idinisenyo upang subukan ang madiskarteng pangangatuwiran ng pangkalahatang layunin AIS, hindi upang mahanap ang susunod na dalubhasang chess engine. Ang kanilang pagkahulog, blunders, at”mga guni-guni”ay ang buong punto ng pagsusuri, na nagbubunyag ng mga pangunahing kahinaan sa estratehikong lohika at paggunita. target=”_ blangko”> Alphazero ng DeepMind o stockfish, na nakamit ang kakayahan ng Superhuman Chess taon na ang nakalilipas. Malinaw na inilalarawan ang puwang nang madaling talunin ni Magnus Carlsen ang Chatgpt, pagkatapos nito ay huminto siya,”Minsan nababato ako habang naglalakbay,”ang pag-highlight ng malalim na kakulangan ng pag-unawa sa konteksto ng AI. Kamakailan lamang ay sinabi ni Elon Musk na si Xai ay”gumugol ng halos walang pagsisikap sa chess”kapag sinasanay ang modelo, na nagmumungkahi ng malakas na pagganap ng chess nito ay isang hindi inaasahang epekto ng mas malawak na kakayahan sa pangangatuwiran. Si Kaggle ay nagpapatakbo ng daan-daang mga laro sa likod ng mga eksena upang lumikha ng isang patuloy na leaderboard na mag-aalok ng isang mas matatag na benchmark sa paglipas ng panahon. Ang inisyatibong ito ay naglalayong ilipat ang lampas sa mga static na benchmark at sukatin ang mga tunay na kasanayan sa paglutas ng problema sa mga dynamic na kapaligiran.

Categories: IT Info