Scale AI uruchamia tablice liderów LLM „Seal showdown"-czy detrone lmarena

Zachowując katastrofalne partnerstwo z meta, która wywołała exodus i masowe zwolnienia, firma zajmująca się marnotrawstwem danych AI odważna gra, aby odzyskać swój autorytet w branży AI.

Dzisiejsza firma rozpoczęła „SEAL showdown”, nowa publiczna tablica przywódcza zaprojektowana na dethrone, ale skrytykował rivals, tak jak LMArena.

Scale Ai Scal Ai Mocneds, która zostanie rozwiązana przez nową platformę. „Benchmark Wars” za pomocą różnorodna globalna baza użytkowników i zabezpieczenia przed manipulacją . Ten strategiczny obrotek ma na celu rozwiązanie rosnących obaw, że obecne rankingi AI można łatwo walczyć i nie odzwierciedlają rzeczywistej wydajności, oferując skalę ścieżkę odbudowy swojej reputacji na podstawie zaufania.

Od kryzysu korporacyjnego do oferty o wiarygodność

Uruchomienie jest bezpośrednią reakcją na katastrofalne kilka miesięcy dla firmy, kryzys zapalony przez jedną strategiczną decyzję. W czerwcu Meta zainwestował 14,3 miliarda dolarów za 49% udziałów w skali AI.

Ruch był desperackim gambitem Meta, aby przeciwdziałać własnemu wewnętrznemu zamieszaniu, w tym poważnym drenażem talentów i zatrzymaniu rozwoju modelu AI.

Umowa była powszechnie postrzegana jako masywny „Acqui-zarząd” zaprojektowany do instalacji sali, Aleksandr, jako new new, umowa była powszechnie postrzegana jako masywny herp. Laboratorium „Superinteligence”. Jak zauważył jeden z analityków, była inwestycją „nie kupowanie całej firmy, ale po prostu, aby szef firmy kieruje wysiłkiem AI.”

Podczas gdy strategiczny zamach stanu dla firm partnerskich jest zniszczeniem modelu biznesowego Scale: neutralność.

W przypadku firm zajmujących się danymi, zaufanie. Uwierzono im wrażliwe, zastrzeżone dane i przyszłe mapy drogowe produktów od konkurujących gigantów technologicznych. Meta umowa zniszczyła to zaufanie w jednej chwili.

Konsekwencje były natychmiastowe i poważne. Klient Exodus zaczął jako giganci branżowi, w tym Google, Microsoft i Elon Musk’s XAI, zaczęli przeglądać swoje partnerstwa, obawiając się, że ich dane mogą być narażone na bezpośredniego konkurenta.

Google, podobno największej skali klienta, zaczęli planować zerwanie umowy o wartości do 200 milionów dolarów.

Stratę w branży o masowej dziurze w skali, aby uzyskać odniesienie do pomocy. W lipcu, zaledwie miesiąc po meta oferty, firma zwolniła 14% siły roboczej, dotykając 200 pełnoetatowych pracowników i 500 wykonawców. Cięcia zostały nagle obsługiwane, a personel podobno wyłączył systemy, zanim się obudzą.

Złożonymi kryzysem były doniesienia o krytycznej awarii bezpieczeństwa, które ujawniły dane klienta w publicznych dokumentach Google, co dodatkowo uszkadza jego reputację bezpiecznego przetwarzania danych. Postrojenie rynku stworzyło ogromną okazję dla rywali Scale, a firmy takie jak Surge AI podobno szukają nowego kapitału w celu wchłaniania uciekających klientów.

Zamieszanie zakończyły się działaniami prawnymi. Na początku września AI Scale złożyło pozew szpiegostwa wobec korporacyjnej przeciwko rywalizującej firmie Mercor i byłym dyrektora, Eugene Ling.

Pozew twierdzi, że Ling ukradł ponad 100 poufnych dokumentów zawierających tajemnice handlowe przed dołączeniem do konkurenta. Ten ruch sygnalizuje firmę pod ogromną presją, teraz walcząc o ochronę własności intelektualnej jako konkurenci wykorzystują swoją niestabilność.

Gra o wysokim stawce wadliwych tablicach liderów

showdown feal wchodzi w zaciekłą konkurencyjną arenę dominowaną przez platformy takie jak lmarena, które stały się de facto wyścigami armii. Ranking może zwiększać media, umowy o przedsiębiorstwie i wyższe wyceny, powodując ogromną presję na laboratoria, aby osiągnąć dobre wyniki, czasem za pomocą wątpliwych środków. Dało to powstanie „wojny porównawczej”, w których postrzeganie dominacji jest tak samo krytyczne, jak faktyczne wykonanie.

To intensywne skupienie się na wskaźnikach doprowadziło do praktyk takich jak „Hillclimbing”. Niedawny raport ujawnił, że zatrudniony przez XAI kontrahentów Elona Muska o wyraźnym celu treningu swojego modelu Grok do pokonania rywala Antropic Claude w wpływowej tablicy kodowania WebDev Arena. href=”https://www.businessinsider.com/grok-leaderboard-coding-antropic-claude-scale-ai-2025-7″target=”_ blank”> Business Insider .

To „nauczanie testu„ Podejście podzielił społeczność AI. Niektórzy, jak dyrektor generalny LMARENA, Anastasios Angelopoulos, postrzegają go jako standardową część rozwoju, mówiąc Business Insider: „Jest to część standardowego przepływu pracy w zakresie modelu. Musisz zbierać dane, aby ulepszyć swój model.”

Inne są bardziej sceptyczne, ostrzegając, że prowadzi do zniekształconych wyników. Sara Hooker, szef Cohere Labs, argumentowała, że „gdy tablica liderowa jest ważna dla całego ekosystemu, zachęty są wyrównane, aby go było.”

To nie jest tylko teoretyczna troska. Wydaje się, że intensywne skupienie się na testach porównawczych tworzy niebezpieczną lukę między tym, jak modele działają w testach a tym, jak funkcjonują w świecie rzeczywistym.

Jest to klasyczny przykład prawa Goodharta, w którym miara przestaje być przydatna, gdy staje się głównym celem. Jako strateg AI nate Jones napisał , „moment ustaliliśmy dominację na tablicy przywódczej, celem, ryzykujemy, że tworzymy modele, które wyróżniają się w trywialnych ćwiczeniach i flanelowaniu. Systemowe, według lipcowego badania współautego przez naukowców z Amazon, Stanford i MIT.

The

Nawet przed tym badaniem krytycy zakwestionowali naukową ważność platform crowdsourcingowych. Profesor University of Washington Emily Bender argumentował, że „aby być ważnym, punkt odniesienia musi zmierzyć coś konkretnego i musi mieć konstruowanie ważności…”, zauważając, że Lmarena nie udowodniła, że głosy użytkowników faktycznie korelują z modelem, według techniczni. „Wiarą naszą społeczność Preferowało” Preferowane przez naszą społeczność, które preferowały naszą społeczność. Projekt.”

W jaki sposób showdown ma na celu zbudowanie lepszego punktu odniesienia

AI Scale pozycjonuje showdown jako antidotum do aktualnie wadliwego podejścia modelu AI Benchmarking. Firma twierdzi, że dzisiejsze tablice liderów są wypaczone, ponieważ polegaj na opinii z wąskiej grupy entuzjastów technologii , co w błędzie, w jaki sposób modele działają dla ogólnej publiczności. Sieć współpracowników. Ta sieć obejmuje ponad 100 krajów, 70 języków i różne zawody, obiecując bardziej reprezentatywną i realistyczną ocenę wydajności modelu.

Po raz pierwszy na publicznej tabeli liderów użytkownicy mogą segmentować rankingi według danych demograficznych, wiek, wiek, poziom edukacji i język. Pozwala to programistom i klientom zobaczyć, jak modele działają dla określonych odbiorców, zamiast polegać na jednym, monolitycznym wyniku.

Na przykład wstępne dane Scale ujawniają preferencje regionalne, z Chatgpt prowadzącym w Europie, podczas gdy Claude jest bardziej konkurencyjny w innym miejscu. Pokazuje także, w jaki sposób modele takie jak Gemini osiągają lepsze wyniki z użytkownikami nieanglojęzycznymi, oferując spostrzeżenia wcześniej niedostępne dla społeczeństwa.

Co najważniejsze, Scale wdraża również zabezpieczenia przed manipulacją. Firma stwierdza, że nie będzie sprzedawać ani licencjować za najnowsze dane z tej samej dystrybucji co liderowa tablica na żywo. Polityka ta ma na celu uniemożliwienie laboratoriom AI po prostu dostrojenie swoich modeli do „gry” rankingów, zmuszając ich do budowania prawdziwie zdolnych systemów.

Ruch to podkreśla zasadę, która stała się rajdowym okrzykiem dla konkurentów Scale. Jak argumentował dyrektor generalny Turinga, Jonathan Siddharth po meta oferty: „Neutralność nie jest już opcjonalna, jest to niezbędne”. Uruchamiając platformę zbudowaną na przejrzystości i neutralności, Scale AI próbuje odzyskać tę podstawową jakość.

Ostatecznie showdown SEAL to coś więcej niż uruchomienie produktu; To oferta o wysokim stawie na odkupienie. Dla firmy, której reputacja została zniszczona przez umowę, która zagroziła jej niezależności, zbudowanie najbardziej zaufanego punktu odniesienia w branży może być jedyną drogą do pozycji kierowniczej.

Scale AI uruchamia tablice liderów LLM „Seal showdown”-czy detrone lmarena

Published by All Things Windows on September 22, 2025

Gra o wysokim stawce wadliwych tablicach liderów

W jaki sposób showdown ma na celu zbudowanie lepszego punktu odniesienia

IT Info

Google DeepMind aktualizuje zasady bezpieczeństwa AI w celu przeciwdziałania „szkodliwej manipulacji” i modeli, które opierają się zamknięciu

IT Info

Windows 11 otrzymuje funkcję tapety wideo

IT Info

Linia ratunkowa NVIDIA w wysokości 5 mld USD na Intel Sparks Debata: Czy pełna firma podzieli się jedynym sposobem naprzód?

Scale AI uruchamia tablice liderów LLM „Seal showdown”-czy detrone lmarena

Published by All Things Windows on September 22, 2025

Gra o wysokim stawce wadliwych tablicach liderów

W jaki sposób showdown ma na celu zbudowanie lepszego punktu odniesienia

Related Posts

IT Info

Google DeepMind aktualizuje zasady bezpieczeństwa AI w celu przeciwdziałania „szkodliwej manipulacji” i modeli, które opierają się zamknięciu

IT Info

Windows 11 otrzymuje funkcję tapety wideo

IT Info

Linia ratunkowa NVIDIA w wysokości 5 mld USD na Intel Sparks Debata: Czy pełna firma podzieli się jedynym sposobem naprzód?