Inilunsad ng Scale AI ang'Seal Showdown'LLM Leaderboards-Maaari ba itong Dethrone Lmarena

reeling mula sa isang nakapipinsalang pakikipagtulungan sa meta na nagdulot ng isang kliyente na exodo at mass layoffs, ang data-labeling firm scale AI ay gumagawa ng isang matapang na pag-play upang makuha ang awtoridad nito sa industriya ng AI.”Benchmark Wars”sa pamamagitan ng paggamit ng isang magkakaibang pandaigdigang base ng gumagamit at pag-iingat laban sa pagmamanipula . Ang estratehikong pivot na ito ay naglalayong matugunan ang lumalagong mga alalahanin na ang kasalukuyang mga ranggo ng AI ay madaling gamed at mabibigo na sumasalamin sa pagganap ng tunay na mundo, na nag-aalok ng isang landas upang muling itayo ang reputasyon nito sa isang pundasyon ng tiwala. src=”data: imahe/svg+xml; nitro-empty-id=mty0mdoxmdy3-1; base64, phn2zyb2awv3qm94psiwidagmti4mcaxmdk4 IiB3AWR0AD0IMTI4MCIGAGVPZ2H0PSIXMDK4IIB4BWXUCZ0IAHR0CDOVL3D3DY53MY5VCMCVMJAWMC9ZDMCIPJWVC3ZNPG==”>

kung paano naglalayong ang Seal Showdown na bumuo ng isang mas mahusay na benchmark Nagtatalo ang kumpanya na ang mga leaderboard ngayon ay skewed dahil sila umasa nang labis sa feedback mula sa isang makitid na grupo ng mga taong nakakaintriga Contributor Network. Ang network na ito ay sumasaklaw sa higit sa 100 mga bansa, 70 wika, at iba’t ibang mga propesyon, na nangangako ng isang mas kinatawan at makatotohanang pagsusuri ng pagganap ng modelo. Pinapayagan nito ang mga developer at customer na makita kung paano gumanap ang mga modelo para sa mga tiyak na madla, sa halip na umasa sa isang solong, monolitikong marka. Ipinapakita rin nito kung paano mas mahusay ang pagganap ng mga modelo tulad ng Gemini sa mga hindi gumagamit ng Ingles, na nag-aalok ng mga pananaw na dati nang hindi magagamit sa publiko. Sinasabi ng kumpanya na hindi ito ibebenta o lisensya ang kamakailang data mula sa parehong pamamahagi tulad ng live leaderboard. Ang patakarang ito ay idinisenyo upang maiwasan ang mga lab ng AI mula sa simpleng pag-tune ng kanilang mga modelo upang”laro”ang mga ranggo, na pinilit ang mga ito na bumuo ng mga tunay na may kakayahang mga sistema. Tulad ng pagtatalo ng Turing CEO na si Jonathan Siddharth pagkatapos ng deal ng meta,”ang neutrality ay hindi na opsyonal, mahalaga ito.”Sa pamamagitan ng paglulunsad ng isang platform na binuo sa transparency at neutralidad, sinusubukan ng scale AI na makuha ang mahahalagang kalidad. Ito ay isang mataas na pusta bid para sa pagtubos. Para sa isang kumpanya na ang reputasyon ay nasira ng isang pakikitungo na nakompromiso ang kalayaan nito, ang pagbuo ng pinaka-pinagkakatiwalaang benchmark ng industriya ay maaaring ang tanging landas pabalik sa isang posisyon ng pamumuno. Noong Hunyo, namuhunan si Meta ng $ 14.3 bilyon para sa isang 49% na stake sa scale AI. lab. Tulad ng nabanggit ng isang analyst, ito ay isang pamumuhunan”hindi kahit na bumili ng isang buong kumpanya ngunit upang magkaroon lamang ng pinuno ng isang kumpanya ang pinuno ng iyong pagsisikap ng AI.”Ipinagkatiwala sila sa sensitibo, pagmamay-ari ng data at mga roadmaps ng produkto mula sa mga nakikipagkumpitensya na mga higanteng tech. Ang deal ng meta ay nawasak ang tiwala na iyon sa isang instant.

Ang mga kahihinatnan ay agad at malubha. Ang isang exodo ng kliyente ay nagsimula habang ang mga higante sa industriya, kasama ang Google, Microsoft, at Elon Musk’s Xai, ay nagsimulang suriin ang kanilang mga pakikipagsosyo, na natatakot sa kanilang data ay maaaring mailantad sa isang direktang katunggali. Noong Hulyo, isang buwan lamang matapos ang meta deal, ang kumpanya ay naglatag ng 14% ng mga manggagawa nito, na nakakaapekto sa 200 full-time na empleyado at 500 mga kontratista. Ang mga pagbawas ay biglang hawakan, kasama ang mga kawani na naiulat na na-shut out ng mga system bago sila nagising. Ang realignment ng merkado ay lumikha ng isang napakalaking pagkakataon para sa mga karibal ng scale, kasama ang mga kumpanya tulad ng Surge AI na naiulat na naghahanap ng bagong kapital upang sumipsip ng mga tumatakas na kliyente.

Ang kaguluhan na natapos sa ligal na aksyon. Noong unang bahagi ng Setyembre, ang Scale AI ay nagsampa ng isang demanda sa korporasyon laban sa karibal na firm na si Mercor at isang dating ehekutibo, si Eugene Ling. Ang paglipat ay nagpapahiwatig ng isang kumpanya sa ilalim ng napakalawak na presyon, na ngayon ay nakikipaglaban upang maprotektahan ang intelektwal na pag-aari nito habang ang mga kakumpitensya ay sumasama sa kawalang-tatag nito. Ang pagraranggo ay maaaring magmaneho ng buzz ng media, mga kontrata ng negosyo, at mas mataas na mga pagpapahalaga, na lumilikha ng napakalawak na presyon para sa mga lab na gumanap nang maayos, kung minsan sa pamamagitan ng mga kaduda-dudang paraan. Nagdulot ito ng”Benchmark Wars,”kung saan ang pang-unawa ng pangingibabaw ay kritikal bilang aktwal na pagganap. Ang isang kamakailang ulat ay nagsiwalat ng mga kontratista ng XAI ng Elon Musk na may malinaw na layunin na pagsasanay sa modelo ng Grok nito upang talunin ang karibal na Anthropic’s Claude sa maimpluwensyang Webdev Arena Coding Leaderboard. href=”https://www.businessinsider.com/grok-leaderboard-coding-anthropic-claude-scale-ai-2025-7″target=”_ blangko”> Business Insider . Ang ilan, tulad ng CEO ng Lmarena na si Anastasios Angelopoulos, tingnan ito bilang isang pamantayang bahagi ng pag-unlad, na nagsasabi sa Business Insider,”Ito ay bahagi ng pamantayang daloy ng trabaho ng pagsasanay sa modelo. Kailangan mong mangolekta ng data upang mapagbuti ang iyong modelo.”Si Sara Hooker, pinuno ng CoHere Labs, ay nagtalo na”Kapag ang isang leaderboard ay mahalaga sa isang buong ekosistema, ang mga insentibo ay nakahanay upang ito ay gamed.”

Hindi lamang ito isang teoretikal na pag-aalala. Ang matinding pokus sa mga benchmark ay lilitaw na lumilikha ng isang mapanganib na agwat sa pagitan ng kung paano gumanap ang mga modelo sa mga pagsubok at kung paano sila gumana sa totoong mundo. Bilang ai strategist Nate jones ay sumulat ng ,”Ang sandali na nagtatakda kami ng leaderboard na pangingibabaw bilang layunin, panganib namin ang mga modelo na walang kabuluhan sa mga trivial na pagsasanay at flounder kapag nahaharap sa katotohanan. Systemic, ayon sa isang pag-aaral sa Hulyo na isinulat ng mga mananaliksik mula sa Amazon, Stanford, at Mit. sa 100% dahil sa mga isyu sa pag-setup ng gawain at disenyo ng gantimpala. Natagpuan ng mga may-akda na ang mga bahid na ito ay maaaring maling mag-maling mga ahente sa mga mapagkumpitensyang mga leaderboard ng halos 40 porsyento. Nagtalo ang propesor ng University of Washington na si Emily Bender na”maging may bisa, ang isang benchmark ay kailangang masukat ang isang bagay na tiyak, at kailangan itong magkaroon ng pagiging totoo…,”na napansin na ang Lmarena ay hindi napatunayan na ang mga boto ng gumagamit Disenyo.”

Inilunsad ng Scale AI ang’Seal Showdown’LLM Leaderboards-Maaari ba itong Dethrone Lmarena

Published by All Things Windows on September 22, 2025

IT Info

Ina-update ng Google DeepMind ang mga patakaran sa kaligtasan ng AI upang kontrahin ang’nakakapinsalang pagmamanipula’at mga modelo na lumalaban sa pagsara

IT Info

Paano Ibalik ang Wordpad sa Windows 11 (2 Mga Paraan)

IT Info

Ang Windows 11 ay nakakakuha ng tampok na wallpaper ng video

Inilunsad ng Scale AI ang’Seal Showdown’LLM Leaderboards-Maaari ba itong Dethrone Lmarena

Published by All Things Windows on September 22, 2025

Related Posts

IT Info

Ina-update ng Google DeepMind ang mga patakaran sa kaligtasan ng AI upang kontrahin ang’nakakapinsalang pagmamanipula’at mga modelo na lumalaban sa pagsara

IT Info

Paano Ibalik ang Wordpad sa Windows 11 (2 Mga Paraan)

IT Info

Ang Windows 11 ay nakakakuha ng tampok na wallpaper ng video