Sa mabangis na lahi para sa supremacy ng AI, si Elon Musk’s Xai ay direktang naglalayong karibal na Anthropic. Ipinapakita ng isang bagong ulat na noong unang bahagi ng Hulyo, inupahan ni Xai ang mga kontratista upang sanayin ang modelo ng Grok na may malinaw na layunin: Talunin ang Claude ng Antropic sa isang pampublikong codeboard. Ang paglipat ay nagpapakita ng matinding presyon sa mga lab ng AI sa tuktok na mga benchmark ng publiko, na kumikilos bilang isang pangunahing scoreboard para sa pag-akit ng pamumuhunan at mga customer. Ang modelo ng punong barko ng Xai ay nagtataas ng mga pulang watawat, ay lilitaw na labis na nasasakop upang puntos ng mabuti
Ang pokus na ito ay dumating habang ang pagganap ng tunay na mundo ng Grok 4 ay nahaharap sa mga mahihirap na katanungan mula sa mga gumagamit. target=”_ blangko”> Ayon Sa Business Insider, ang mga tagubilin ng proyekto ay hindi malabo. Ang mga kontratista ay tungkulin sa ranggo ng”Hillclimb”Grok, na may isang scale na dokumento ng AI onboarding na nagsasabi,”Nais naming gawin ang modelo ng in-task na #1 na modelo.”Ang tiyak na target ay ang”Sonnet 3.7 na pinalawak”ng Anthropic, na kinikilala ang kumpanya bilang isang pangunahing karibal sa puwang ng coding ng AI. Para sa mga lab tulad ng Xai, Anthropic, at Openai, isang nangungunang lugar sa isang iginagalang na tsart tulad ng Lmarena ay maaaring magsalin nang direkta sa media buzz, mga kontrata ng negosyo, at isang mas mataas na pagpapahalaga.
Ang pagpili ng target ay nagsasabi. Ang Anthropic ay patuloy na nakaposisyon sa mga modelo ng Claude bilang mga top-tier coding na katulong, isang paghahabol na suportado ng malakas na pagtatanghal ng benchmark at pag-aampon ng developer. Ginagawa nila silang karibal ng de facto na talunin.
standard na kasanayan o paglalaro ng system? Ito ba ay isang lehitimong pamamaraan ng pagpapabuti ng isang modelo, o ito ba ay nagtuturo sa pagsubok upang i-game ang mga ranggo? Ang pamayanan ng AI ay nananatiling nahahati sa isyu.
Ang ilang mga eksperto ay nakikita ito bilang isang normal na bahagi ng siklo ng pag-unlad. Ang CEO ng Lmarena, Anastasios Angelopoulos, ay tiningnan ito bilang pamantayang pamamaraan, na nagsasabi sa Business Insider,”Ito ay bahagi ng pamantayang daloy ng trabaho ng pagsasanay. Kailangan mong mangolekta ng data upang mapagbuti ang iyong modelo.”Mula sa pananaw na ito, ang paggamit ng data ng leaderboard upang mahanap at ayusin ang mga kahinaan ay isang lohikal na hakbang. Si Sara Hooker, pinuno ng CoHere Labs, ay nagtalo na”Kapag ang isang leaderboard ay mahalaga sa isang buong ekosistema, ang mga insentibo ay nakahanay upang ito ay gamed.”
Hindi lamang ito isang teoretikal na pag-aalala. Noong Abril, nahaharap ni Meta ang mga akusasyon ng mga gaming leaderboard matapos ang isang variant ng llama 4 maverick model na ginamit para sa benchmarking na naiiba sa pampublikong bersyon, na nag-spark ng debate sa mga mananaliksik. totoong mundo. Ito ay isang klasikong halimbawa ng batas ng Goodhart, kung saan ang isang panukala ay tumigil na maging kapaki-pakinabang sa sandaling ito ang pangunahing target. Habang ang Xai touted record-breaking score sa mga pagsubok sa akademiko, ang praktikal na pagganap nito ay agad na tinanong. Sa platform ng gumagamit-preference na Yupp.ai, na umaasa sa mga paghahambing sa head-to-head, ang Grok 4 sa una ay nagraranggo ng isang nakakahiyang ika-66. Ang mahirap na pagpapakita na ito ay maiugnay sa modelo na mabagal at error-prone sa mga senaryo sa real-world. Noong kalagitnaan ng Hulyo, umakyat si Grok 4 sa ika-12 na lugar sa Webdev Arena, na naglalakad pa rin ng mga modelo ng Anthropic.
WebDev Arena Leaderboard (07/22/2025) Ai strategist na si Nate Jones sumulat sa kanyang newsletter ,”Ang sandali na nagtatakda kami ng leaderboard dominance bilang ang layunin, peligro namin ang paglikha ng mga modelo na nagpapalabas sa mga trivial na pagsasanay at lumulutang kapag nahaharap sa katotohanan. Para sa mga nag-develop, nangangahulugan ito ng isang modelo na ang isang pagsusulit ay maaaring mabigo pa rin sa mga praktikal na gawain ng coding na kailangan nila upang maisagawa. Ang pagsisikap ay dumating habang iniulat ni Xai na naghahanap ng isang bagong pag-ikot ng pangangalap ng pondo na maaaring pahalagahan ito ng hanggang sa $ 200 bilyon, na ginagawang ang mga positibong headlines ay isang madiskarteng pag-aari. Inihayag ang laro ng high-stake na nilalaro ng AI Labs, kung saan ang pang-unawa ng pangingibabaw, na hinihimok ng mga benchmark chart, ay maaaring maging kasinghalaga ng aktwal, praktikal na utility ng modelo.