che si aggira da una disastrosa partnership con Meta che ha scatenato un esodo del cliente e licenziamenti di massa, la società di etichettatura di dati AI sta realizzando un gioco audace per recuperare la sua autorità nell’industria dell’IA.

La società ha lanciato oggi”Showdown SEAL””Benchmark Wars”usando un base di utenti globali diverse e salvaguardie contro la manipolazione . Questo perno strategico mira a rispondere alle crescenti preoccupazioni del fatto che le attuali classifiche di AI siano facilmente colpite e non riescono a riflettere le prestazioni del mondo reale, offrendo una scala un percorso per ricostruire la sua reputazione su una base di fiducia.

Dalla crisi aziendale a un’offerta per la credibilità

Il lancio è una risposta diretta a pochi mesi catastrofici per l’azienda, una crisi innescata da un’unica decisione strategica. A giugno, Meta ha investito $ 14,3 miliardi per una quota del 49% in scala AI.

La mossa è stata una mossa disperata di Meta per contrastare il proprio tumulto interno, tra cui un grave drenaggio di talenti e lo sviluppo del modello AI bloccato. Laboratorio”Superintelligence”. Come ha osservato un analista, è stato un investimento”non nemmeno acquistare un’intera azienda, ma solo per avere il capo di un’azienda a capo del tuo sforzo di intelligenza artificiale.”

Mentre un colpo di stato strategico per Meta, la partnership ha distrutto il modello di business di Scale. Sono affidati con dati sensibili e proprietari e future roadmap di prodotti da giganti della tecnologia concorrenti. Il Meta Deal ha distrutto quella fiducia in un istante.

Le conseguenze erano immediate e gravi. Un esodo cliente è iniziato come giganti del settore, tra cui Google, Microsoft ed Elon Musk, hanno iniziato a rivedere le loro partnership, temendo che i propri dati potessero essere esposti a un concorrente diretto.

Google, secondo quanto riferito, ha iniziato a prendere un contratto per ottenere un grave per la riduzione delle misure. A luglio, appena un mese dopo il Meta Deal, la società ha licenziato il 14% della sua forza lavoro, che colpisce 200 dipendenti a tempo pieno e 500 appaltatori. I tagli sono stati gestiti bruscamente, con il personale, secondo quanto riferito, il personale è uscito dai sistemi prima di svegliarsi.

La aggravatura della crisi è stata la segnalazione di un fallimento di sicurezza critico che ha esposto i dati dei clienti sui documenti pubblici di Google, danneggiando ulteriormente la sua reputazione per una gestione sicura dei dati. Il riallineamento del mercato ha creato un’enorme opportunità per i rivali di Scale, con aziende come Surge AI che cercavano nuovo capitale per assorbire i clienti in fuga.

Il tumulto è culminato in azione legale. All’inizio di settembre, Scale AI ha intentato una causa di spionaggio aziendale contro la società rivale Mercor e un ex dirigente, Eugene Ling.

La causa sostiene che Ling ha rubato oltre 100 documenti riservati contenenti segreti commerciali prima di unirsi al concorrente. La mossa segnala un’azienda sotto una pressione immensa, che ora combatte per proteggere la sua proprietà intellettuale mentre i concorrenti capitalizzano la sua instabilità.

La partita ad alto contenuto di poste di classifiche imperfette

SEAL Showdown che entra in una razza di armi. La classifica può guidare il brusio dei media, i contratti aziendali e le valutazioni più elevate, creando una pressione immensa per i laboratori per funzionare bene, a volte con mezzi discutibili. Ciò ha dato origine alle”guerre di riferimento”, in cui la percezione del dominio è critica quanto le prestazioni effettive.

Questa intensa attenzione alle metriche ha portato a pratiche come”Hillclimbing”. Un recente rapporto ha rivelato gli appaltatori Assunti XAI di Elon Musk con l’obiettivo esplicito di addestrare il suo modello Grok per battere il Claude di Antropico rivale sul influente classifica della codifica dell’arena WebDev.

Un documento di onboarding interno ha affermato consacamente,”Vogliamo rendere il modello in-task il modello n. 1″, secondo Business Insider .

Questo approccio”Insegnamento al test”ha diviso la comunità AI. Alcuni, come l’amministratore delegato di LMarena, Anastasios Angelopoulos, lo considerano una parte standard dello sviluppo, dicendo a Business Insider:”Questo fa parte del flusso di lavoro standard della formazione del modello. È necessario raccogliere dati per migliorare il tuo modello.”

Altri sono più scettici, avvertendo che porta a risultati distorti. Sara Hooker, responsabile dei laboratori di Cohere, ha sostenuto che”quando una classifica è importante per un intero ecosistema, gli incentivi sono allineati per essere coltivato”.

Questa non è solo una preoccupazione teorica. L’intensa attenzione ai parametri di riferimento sembra creare un pericoloso divario tra il modo in cui i modelli si comportano sui test e il modo in cui funzionano nel mondo reale.

Questo è un classico esempio della legge di Goodhart, in cui una misura cessa di essere utile una volta che diventa l’obiettivo principale. Come stratega di AI nate jones ha scritto ,”Il momento in cui sediamo il dominio della classifica come obiettivo, rischiamo i modelli che eccellono in esercitazioni triviali e che si trovi in ​​flounder. Systemic, secondo uno studio di luglio, scritto dai ricercatori di Amazon, Stanford e MIT.

The carta Disposizione di un avvertimento: molti performance sono realizzati in modo inadeguato di disadattamento di Model di Model di ModelS. Fino al 100% a causa di problemi nella configurazione delle attività e nella progettazione della ricompensa. Gli autori hanno scoperto che questi difetti potevano maltrattare agenti su classifiche competitive fino al 40 percento.

Anche prima di questo studio, i critici hanno messo in dubbio la validità scientifica delle piattaforme di crowdsourcing. La professoressa dell’Università di Washington, Emily Bender, ha sostenuto che”essere validi, un punto di riferimento deve misurare qualcosa di specifico, e deve avere costruzione di validità…”, notando che Lmarena non aveva dimostrato che i voti degli utenti sono effettivamente correlati con la qualità del modello, secondo TechCrunch.

il team di LMarena ha respinto, affermando un post sul blog che la loro leader di leaderca sarà”reflettica di fiducia”Design.”

Come SEAL Showdown mira a costruire un migliore punto di riferimento

Scala AI è il posizionamento della showdown SEAL come antidoto all’approccio attualmente imperfetto del benchmarking del modello AI. La società sostiene che le classifiche di oggi sono distorte perché si basano fortemente sul feedback da parte di uno stretto gruppo di appassionati di tecnologia: i dati della nuova piattaforma sono i suoi dati di difficoltà di scala rete di contributori. Questa rete abbraccia oltre 100 paesi, 70 lingue e varie professioni, promettendo una valutazione più rappresentativa e realistica delle prestazioni del modello.

Per la prima volta in una classifica pubblica, gli utenti possono segmentare le classifiche come dati demografici, età, livello di istruzione e linguaggio. Ciò consente agli sviluppatori e ai clienti di vedere come i modelli si comportano per un pubblico specifico, piuttosto che fare affidamento su un singolo punteggio monolitico.

Ad esempio, i dati iniziali di Scale rivelano le preferenze regionali, con CHATGPT che porta in Europa mentre Claude è più competitivo altrove. Mostra anche come modelli come Gemini funzionano meglio con gli utenti non inglesi, offrendo approfondimenti precedentemente non disponibili al pubblico.

Scala, la scala sta anche implementando garanzie contro la manipolazione. La società afferma che non venderà o concederà in licenza dati recenti dalla stessa distribuzione della classifica in diretta. Questa politica è progettata per impedire ai laboratori di intelligenza artificiale di sintonizzare semplicemente i loro modelli a”giocare”le classifiche, costringendoli a costruire sistemi veramente capaci.

La mossa sottolinea un principio che è diventato un grido di raduno per i concorrenti di Scale. Come ha sostenuto il CEO di Turing Jonathan Siddharth dopo il meta accordo,”la neutralità non è più facoltativa, è essenziale”. Lanciando una piattaforma costruita su trasparenza e neutralità, la scala AI sta tentando di rivendicare quella qualità essenziale.

In definitiva, SEAL Showdown è più di un lancio di prodotto; È un’offerta di alto livello per la redenzione. Per una società la cui reputazione è stata infranta da un accordo che ha compromesso la sua indipendenza, costruire il benchmark più affidabile del settore potrebbe essere l’unico percorso a una posizione di leadership.