Scale AI lëshon ‘Seal Showdown’ LLM Leaderboards-A mundet Dethrone lmarena

duke u rikthyer nga një partneritet katastrofik me Meta që ndezi një eksod të klientit dhe pushimet masive, firma e etiketimit të të dhënave Scale AI po bën një lojë të guximshme për të rikthyer autoritetin e saj në industrinë e AI.”Benchmark Wars”duke përdorur një Baza e ndryshme globale e përdoruesve dhe masat mbrojtëse kundër manipulimit . Ky strategji strategjike synon të adresojë shqetësimet në rritje se renditja e tanishme e AI janë lehtësisht të gamed dhe nuk arrijnë të pasqyrojnë performancën e botës reale, duke ofruar shkallë një shteg për të rindërtuar reputacionin e saj në një themel të besimit. src=”të dhëna: imazh/svg+xml; nitro-empty-id=mty2ntoxmdy3-1; base64, phn2zyb2awv3qm94psiwidagmti4mcaxmdk4 Iib3awr0ad0imti4mcigagvpz2h0psixmdk4iib4bwxucz0iahr0cdovl3d3dy53my5vcmcvmjawmc9zdmcipjwvc3znpg==”>

Nga kriza e korporatave në një ofertë për besueshmëri

Nisja është një përgjigje e drejtpërdrejtë ndaj disa muajve katastrofikë për kompaninë, një krizë e ndezur nga një vendim i vetëm strategjik. Në qershor, Meta investoi 14.3 miliardë dollarë për një 49% të aksioneve në shkallën AI. Laboratori”Superintelligence”. Siç vuri në dukje një analist, ishte një investim”të mos blini as një kompani të tërë, por thjesht të keni kryetarin e një kompanie të kryesojë përpjekjen tuaj të AI.”Atyre u besohet të dhëna të ndjeshme, të pronarit dhe hartave të ardhshme të produkteve të ardhshme nga gjigantët e teknologjisë konkurruese. Marrëveshja meta shkatërroi atë besim në një çast.

Pasojat ishin të menjëhershme dhe të rënda. Një eksod i klientit filloi si gjigandë të industrisë, duke përfshirë Google, Microsoft dhe Xai të Elon Musk, filloi të rishikojë partneritetet e tyre, nga frika se të dhënat e tyre mund të ekspozoheshin ndaj një konkurrenti të drejtpërdrejtë. Në korrik, vetëm një muaj pas marrëveshjes meta, kompania pushoi 14% të forcës së saj të punës, duke prekur 200 punonjës me kohë të plotë dhe 500 kontraktorë. Shkurtimet u trajtuan papritmas, me stafin që thuhet se u mbyllën nga sistemet para se të zgjoheshin. Regjistrimi i tregut krijoi një mundësi masive për rivalët e Scale, me firma si Surge AI që kërkojnë të kërkojnë kapital të ri për të thithur klientët që ikin. Në fillim të shtatorit, Scale AI ngriti një padi të spiunazhit të korporatave kundër firmës rivale Mercor dhe një ish ekzekutiv, Eugene Ling. Masa sinjalizon një kompani nën presion të jashtëzakonshëm, tani duke luftuar për të mbrojtur pronën e saj intelektuale pasi konkurrentët kapitalizojnë paqëndrueshmërinë e saj. Renditja mund të shkaktojë gumëzhitje të mediave, kontrata të ndërmarrjeve dhe vlerësime më të larta, duke krijuar presion të madh për laboratorët për të kryer mirë, ndonjëherë përmes mjeteve të diskutueshme. Kjo i ka dhënë”Luftërave të Benchmark”, ku perceptimi i mbizotërimit është po aq kritik sa performanca aktuale. Një raport i fundit zbuloi se Xai i punësuar i Elon Musk punësoi kontraktorët me qëllimin e qartë të trajnimit të modelit të tij GROK për të mposhtur Claude të rivalit Antropik në udhëheqjen me ndikim të kodimit WebDev Arena. href=”https://www.businessinsider.com/grok-leaderboard-coding-anthropic-claude-cale-ai-2025-7″target=”_ bosh”> Business Insider . Disa, si Drejtori i Përgjithshëm i Lmarena, Anastasios Angelopoulos, e shohin atë si një pjesë standarde të zhvillimit, duke i thënë Business Insider,”Kjo është pjesë e rrjedhës standarde të punës së trajnimit të modelit. Ju duhet të mbledhni të dhëna për të përmirësuar modelin tuaj.”Sara Hooker, kreu i Chere Labs, argumentoi se”kur një tabelë drejtuese është e rëndësishme për një ekosistem të tërë, stimujt janë në përputhje që ajo të jetë gamed.”

kjo nuk është vetëm një shqetësim teorik. Përqendrimi intensiv në standardet duket se po krijon një hendek të rrezikshëm midis mënyrës sesi modelet kryejnë teste dhe si funksionojnë ato në botën reale. Si strategjis i AI nate Jones shkroi ,”Momenti që ne vendosëm mbizotërimin e bordit si qëllimi, ne rrezikojmë të krijojmë modele që shkëlqejnë në ushtrime triviale dhe të flakërojnë kur fytyra e tij.”Sistemik, sipas një studimi të korrikut të bashkëautorizuar nga studiues nga Amazon, Stanford, dhe MIT.

në 100% për shkak të çështjeve në përcaktimin e detyrave dhe hartimin e shpërblimit. Autorët zbuluan se këto të meta mund të gabojnë agjentët në tabelat konkurruese deri në 40 përqind. Profesori i Universitetit të Uashingtonit Emily Bender argumentoi se”të jesh i vlefshëm, një pikë referimi duhet të matet diçka specifike, dhe duhet të ketë vlefshmëri të ndërtuar…,”duke vërejtur se lmarena nuk kishte provuar që votat e përdoruesve të lidhen në të vërtetë me cilësinë e modelit, sipas techCrunch. Dizajni.”

Si Showdown Seal synon të ndërtojë një pikë referimi më të mirë

Shkalla AI po pozicionon përballjen e vulës si antidot për qasjen aktualisht të gabuar të krahasimit të modelit AI. Kompania argumenton se drejtuesit e sotëm janë skewed sepse ata mbështeten shumë në reagime nga një grup i ngushtë i entuziazmit të teknologjisë është burimi i të dhënave të tij: Millions, i cili gabon se si modelet e tyre performojnë për publikun e përgjithshëm. rrjet Ky rrjet përfshin mbi 100 vende, 70 gjuhë dhe profesione të ndryshme, duke premtuar një vlerësim më përfaqësues dhe realist të performancës së modelit. Kjo lejon zhvilluesit dhe klientët të shohin se si modelet performojnë për audiencë specifike, në vend që të mbështeten në një rezultat të vetëm, monolitik. Ai gjithashtu tregon se si modele si Binjakët performojnë më mirë me përdoruesit jo-anglezë, duke ofruar njohuri më parë të padisponueshme për publikun. Kompania deklaron se nuk do të shesë ose licencojë të dhënat e fundit nga e njëjta shpërndarje si drejtuesi i drejtpërdrejtë. Kjo politikë është krijuar për të parandaluar laboratorët e AI të thjesht akordimin e modeleve të tyre për të”lojë”renditjen, duke i detyruar ata të ndërtojnë sisteme vërtet të afta. Ndërsa CEO i Turing Jonathan Siddharth argumentoi pas marrëveshjes meta,”Neutraliteti nuk është më opsional, është thelbësore”. Duke lançuar një platformë të ndërtuar mbi transparencën dhe neutralitetin, Shkalla AI po përpiqet të rimarrë atë cilësi thelbësore. Shtë një ofertë me interes të lartë për shëlbimin. Për një kompani, reputacioni i së cilës u shpartallua nga një marrëveshje që komprometoi pavarësinë e saj, ndërtimi i standardit më të besueshëm të industrisë mund të jetë rruga e vetme që kthehet në një pozicion udhëheqës.

Scale AI lëshon ‘Seal Showdown’ LLM Leaderboards-A mundet Dethrone lmarena

Published by All Things Windows on September 22, 2025

Nga kriza e korporatave në një ofertë për besueshmëri

Si Showdown Seal synon të ndërtojë një pikë referimi më të mirë

IT Info

Si të ndryshoni madhësinë e cache të ikonave në Windows 11 & 10

IT Info

Microsoft konfirmon çështjet e riprodhimit të DRM në Windows

IT Info

Microsoft në heshtje prezanton Windows AI Lab për t’i lejuar përdoruesit të testojnë veçoritë eksperimentale

Scale AI lëshon ‘Seal Showdown’ LLM Leaderboards-A mundet Dethrone lmarena

Published by All Things Windows on September 22, 2025

Nga kriza e korporatave në një ofertë për besueshmëri

Si Showdown Seal synon të ndërtojë një pikë referimi më të mirë

Related Posts

IT Info

Si të ndryshoni madhësinë e cache të ikonave në Windows 11 & 10

IT Info

Microsoft konfirmon çështjet e riprodhimit të DRM në Windows

IT Info

Microsoft në heshtje prezanton Windows AI Lab për t’i lejuar përdoruesit të testojnë veçoritë eksperimentale