Scara AI lansează „Seal Showdown" LLM LLM-poate detrona Lmarena

scoțând dintr-un parteneriat dezastruos cu Meta care a stârnit un exod client și concedieri în masă, firma de etichetare a datelor la scara AI a lui AI face un joc îndrăzneț pentru a-și revendica autoritatea în industria AI.

Compania a lansat astăzi „Sigilat Showdown”, un nou clasament public, conceput pentru detrona influentă, dar a criticat Rivals, precum LMarena. „Benchmark Wars” prin utilizarea unui Diverse globale de utilizator global și garanții împotriva manipulării . Acest pivot strategic își propune să abordeze îngrijorările crescânde că clasamentele actuale ale AI sunt ușor de jucat și nu reușesc să reflecte performanța din lumea reală, oferind scala o cale de a-și reconstrui reputația pe o bază de încredere.

modul în care showdown-ul de etanșare își propune să construiască un benchmark mai bun

scara AI este poziționarea spectacolului de etanșare ca antidot la acest sistem defectuos. Compania susține că clasamentele de astăzi sunt înclinate pentru că sunt se bazează foarte mult pe feedback-ul de la un grup restrâns de pasionați de tehnologie , care reprezintă greșit modul în care modelele sunt pentru publicul general. rețea de contribuabili. Această rețea se întinde pe peste 100 de țări, 70 de limbi și diverse profesii, promițând o evaluare mai reprezentativă și mai realistă a performanței modelului.

Pentru prima dată pe un clasament public, utilizatorii pot segmenta clasamentele prin demografii precum țara, vârsta, nivelul educației și limbajul. Acest lucru permite dezvoltatorilor și clienților să vadă cum funcționează modelele pentru audiențe specifice, mai degrabă decât să se bazeze pe un singur scor monolitic.

De exemplu, datele inițiale ale scării dezvăluie preferințe regionale, Chatgpt conducând în Europa, în timp ce Claude este mai competitivă în altă parte. De asemenea, arată modul în care modele precum Gemeni funcționează mai bine cu utilizatorii non-englezi, oferind informații anterior indisponibile publicului.

Crucial, Scale implementează, de asemenea, garanții împotriva manipulării. Compania afirmă că nu va vinde sau nu va licența date recente din aceeași distribuție ca liderul live. Această politică este concepută pentru a împiedica laboratoarele AI să-și ajusteze pur și simplu modelele pentru a „juca” clasamentul, forțându-le să construiască sisteme cu adevărat capabile.

Mișcarea subliniază un principiu care a devenit un strigăt de raliu pentru concurenții Scale. După cum a argumentat CEO-ul Turing, Jonathan Siddharth, după meta de acord, „Neutralitatea nu mai este opțională, este esențială”. Prin lansarea unei platforme bazate pe transparență și neutralitate, Scale AI încearcă să recupereze acea calitate esențială.

În cele din urmă, showdown-ul de etanșare este mai mult decât o lansare a produsului; Este o ofertă cu miză mare pentru răscumpărare. Pentru o companie a cărei reputație a fost spulberată de un acord care și-a compromis independența, construirea celei mai de încredere referință a industriei poate fi singura cale înapoi către o poziție de conducere.

de la criza corporativă până la o ofertă pentru credibilitate

Lansarea este un răspuns direct la o catastrofă. În iunie, Meta a investit 14,3 miliarde de dolari pentru o participație de 49% la scara AI.

mișcarea a fost un gambit disperat de către meta pentru a contracara propriile tulburări interne, inclusiv o scurgere severă de talent și dezvoltarea modelului AI. laborator. După cum a menționat un analist, a fost o investiție „să nu cumperi nici măcar o întreagă companie, ci doar să ai șeful unei companii să-ți îndrepte efortul AI. Aceștia sunt încredințați de date sensibile, de proprietate și de focuri de parcurs ale produselor viitoare de la giganții tehnologici concurenți. De acordul meta a distrus această încredere într-o clipă.

Consecințele au fost imediate și severe. Un exod client a început ca giganți din industrie, inclusiv Google, Microsoft și Xai de la Elon Musk, au început să-și revizuiască parteneriatele, temându-se că datele lor ar putea fi expuse unui concurent direct.

Google, se presupune că cel mai mare client al Scalei, a început să planifice un contract în valoare de până la 200 de milioane de dolari. În iulie, la doar o lună de la Meta Deal, compania a concediat 14% din forța de muncă, afectând 200 de angajați cu normă întreagă și 500 de contractori. Reducerile au fost gestionate brusc, personalul ar fi închis sistemele înainte de a se trezi.

Compunerea crizei au fost rapoarte despre un eșec critic de securitate care a expus datele clienților pe documentele publice Google, deteriorarea în continuare a reputației sale de gestionare a datelor sigure. Realizarea pe piață a creat o oportunitate masivă pentru rivalii Scale, cu firme precum Surge AI care caută un capital nou pentru a absorbi clienții fugiți.

tulburarea a culminat cu acțiunea legală. La începutul lunii septembrie, Scale AI a intentat un proces de spionaj corporativ împotriva firmei rivale Mertor și un fost executiv, Eugene Ling.

Procesul susține că Ling a furat peste 100 de documente confidențiale care conțin secrete comerciale înainte de a se alătura concurentului. Mișcarea semnalează o companie sub o presiune imensă, luptând acum pentru a-și proteja proprietatea intelectuală, pe măsură ce concurenții își valorifică instabilitatea.

Jocul cu miză mare a clasamentului de defecte

SEAL Showdown intră într-o arenă competitivă feroce dominată de platforme precum Lmarena, care au devenit o arenă de top a armelor AI. Clasamentul poate conduce zumzetul media, contractele de întreprindere și evaluări mai mari, creând o presiune imensă pentru ca laboratoarele să funcționeze bine, uneori prin mijloace discutabile. Acest lucru a dat naștere la „războaiele de referință”, unde percepția dominanței este la fel de critică ca performanța reală.

Această concentrare intensă asupra valorilor a dus la practici precum „dealuri”. Un raport recent a dezvăluit contractanții Xai de la Elon Musk a angajat contractanții cu scopul explicit de a-și antrena modelul Grok pentru a-l învinge pe Claude Rival Anthropic pe influența WebDev Arena Coding Kning. href=”https://www.businessinsider.com/grok-leaderboard-coding-antropic-claude-scale-AI-2025-7″Target=”_ Blank”> Business Insider .

Această abordare „predarea testului” a împărțit comunitatea AI. Unii, cum ar fi CEO-ul Lmarena, Anastasios Angelopoulos, consideră că este o parte standard a dezvoltării, spunând Business Insider: „Aceasta face parte din fluxul de lucru standard al antrenamentului modelului. Trebuie să colectați date pentru a vă îmbunătăți modelul. Sara Hooker, șeful Cohere Labs, a susținut că „atunci când un clasament este important pentru un întreg ecosistem, stimulentele sunt aliniate pentru ca acesta să fie jucat.”

Aceasta nu este doar o preocupare teoretică. Concentrația intensă pe referințe pare să creeze un decalaj periculos între modul în care modelele se desfășoară la teste și modul în care funcționează în lumea reală.

Acesta este un exemplu clasic al legii lui Goodhart, în care o măsură încetează să fie utilă odată ce devine ținta principală. În calitate de AI Strategist Nate Jones a scris , „momentul în care am stabilit dominanța de clasament ca obiectiv, riscăm să creăm modele care excelează în trivialul și a problemelor și a problemelor cu privire la problemele de față. Sistemic, potrivit unui studiu din iulie coautor de cercetători de la Amazon, Stanford și Mit.

Paper a livrat un avertisment: multe performanțe ale modelului de referință sunt fundamentale în mod profund, capabil, capabil de misat. 100% din cauza problemelor în configurarea sarcinilor și proiectarea recompenselor. Autorii au descoperit că aceste defecte ar putea greși agenții de pe clasamentele competitive cu până la 40 la sută.

Chiar înainte de acest studiu, criticii au pus sub semnul întrebării validitatea științifică a platformelor aglomerate. Profesorul de la Universitatea din Washington, Emily Bender, a susținut că „pentru a fi valabil, un punct de referință trebuie să măsoare ceva specific și că trebuie să aibă validitate de construcție…”, menționând că Lmarena nu a dovedit că voturile utilizatorului se corelează de fapt cu calitatea modelului, potrivit TechCrunch. design.”

Scara AI lansează „Seal Showdown” LLM LLM-poate detrona Lmarena

Published by All Things Windows on September 22, 2025

modul în care showdown-ul de etanșare își propune să construiască un benchmark mai bun

de la criza corporativă până la o ofertă pentru credibilitate

Jocul cu miză mare a clasamentului de defecte

IT Info

Cum se restabilește WordPad în Windows 11 (2 metode)

IT Info

Windows 11 primește o caracteristică de fundal video

IT Info

XAI lansează GROK-4-FAST, un model AI mai ieftin și mai eficient

Scara AI lansează „Seal Showdown” LLM LLM-poate detrona Lmarena

Published by All Things Windows on September 22, 2025

modul în care showdown-ul de etanșare își propune să construiască un benchmark mai bun

de la criza corporativă până la o ofertă pentru credibilitate

Jocul cu miză mare a clasamentului de defecte

Related Posts

IT Info

Cum se restabilește WordPad în Windows 11 (2 metode)

IT Info

Windows 11 primește o caracteristică de fundal video

IT Info

XAI lansează GROK-4-FAST, un model AI mai ieftin și mai eficient