Reeling de uma parceria desastrosa com a Meta que provocou um êxodo de clientes e demissões de massa, a escala da empresa de etiqueta de dados está fazendo um jogo ousado para recuperar sua autoridade na indústria da IA.”Benchmark Wars”usando um Diversas Base Global de Usuário e salvaguardas contra a manipulação . Esse pivô estratégico visa abordar as preocupações crescentes de que as classificações atuais de IA são facilmente giradas e não refletem o desempenho do mundo real, oferecendo uma escala de um caminho para reconstruir sua reputação em uma base de confiança. src=”Dados: imagem/svg+xml; nitro-inempty-id=mty2ntoxmdy3-1; base64, phn2zyb2awv3qm94psiwidagmti4mcaxmdk4 IIB3AWR0Ad0Imti4MCIGAGVPZ2H0PSIXMDK4IIB4BWXUCZ0IAHR0CDOVL3D3DY53MY5VCMCVMJAWMC9ZDMCIPJWVC3ZNPG==”>
da crise corporativa a uma oferta de credibilidade
O lançamento é uma resposta direta a alguns meses catastróficos para a empresa, uma crise acendida por uma única decisão estratégica. Em junho, a Meta investiu US $ 14,3 bilhões por uma participação de 49% na escala Ai. Laboratório de”Superintelligência”. Como observou um analista, era um investimento “nem mesmo comprar uma empresa inteira, mas apenas ter o chefe de uma empresa lidera seu esforço de IA.”
Enquanto um golpe estratégico para a meta, a parceria quebrou a base do modelo de negócios da escala: a neutralidade. Eles são encarregados de dados sensíveis e proprietários e roteiros futuros de produtos de gigantes concorrentes de tecnologia. O acordo de meta destruiu essa confiança em um instante.
As consequências foram imediatas e graves. Um exodo cliente começou como gigantes do setor, incluindo o XAI do Google, Microsoft e Elon Musk, começaram a revisar suas parcerias, temendo que seus dados pudessem ser expostos a um concorrente direto. Em julho, apenas um mês após o acordo de meta, a empresa demitiu 14% de sua força de trabalho, afetando 200 funcionários em período integral e 500 contratados. Os cortes foram tratados abruptamente, com a equipe supostamente excluída dos sistemas antes de acordar. O realinhamento do mercado criou uma oportunidade massiva para os rivais da Scale, com empresas como Surge IA buscando um novo capital para absorver clientes em fuga.
A turbulência culminou em ação legal. No início de setembro, a Scale AI entrou com uma ação corporativa contra a empresa rival Mercor e um ex-executivo, Eugene Ling. O movimento sinaliza uma empresa sob imensa pressão, agora lutando para proteger sua propriedade intelectual à medida que os concorrentes capitalizam sua instabilidade. A classificação pode impulsionar o burburinho da mídia, os contratos corporativos e as avaliações mais altas, criando imensa pressão para que os laboratórios tenham um bom desempenho, às vezes por meios questionáveis. Isso deu origem às”guerras de referência”, onde a percepção de domínio é tão crítica quanto o desempenho real. Um relatório recente revelou que a Xai contratou os contratados de Elon Musk com o objetivo explícito de treinar seu modelo GROK para derrotar Claude do rival antropal na influente tabela de classificação de codificação da Webdev Arena. href=”https://www.businessinsider.com/grok-leaderboard-coding-anthropic-claude-cale-ai-2025-7″Target=”_ Blank”> Business Insider . Alguns, como o CEO da Lmarena, Anastasios Angelopoulos, o veem como uma parte padrão do desenvolvimento, dizendo ao Business Insider: “Isso faz parte do fluxo de trabalho padrão do treinamento de modelos. Você precisa coletar dados para melhorar seu modelo.”
Outros são mais céticos, alertando que levam aos resultados distorcidos. Sara Hooker, chefe da Cohere Labs, argumentou que”quando uma tabela de classificação é importante para um ecossistema inteiro, os incentivos estão alinhados para que seja game”.
Isso não é apenas uma preocupação teórica. O foco intenso nos benchmarks parece estar criando uma lacuna perigosa entre o desempenho dos modelos nos testes e como eles funcionam no mundo real. Como estrategista de IA Nate Jones escreveu , “o momento em que o momento da tira e a flum de uma flum, que se realce. Sistêmico, de acordo com um estudo de julho em co-autoria por pesquisadores da Amazon, Stanford e MIT. 100% devido a problemas no design de configuração e recompensa de tarefas. Os autores descobriram que essas falhas poderiam despertar agentes sobre tabelas de classificação competitivas em até 40 %. A professora da Universidade de Washington, Emily Bender, argumentou que”para ser válido, uma referência precisa medir algo específico e precisa ter validade de construção…”, observando que Lmarena não provou que os votos do usuário realmente se correlacionam com a qualidade do modelo, de acordo com o FaithCrunch. Design.”
Como o Secal Showdown visa construir um benchmark melhor
Escala AI está posicionando o confronto do selo como o antídoto para a abordagem atualmente falha do benchmarking do modelo de IA. A empresa argumenta que as tabelas de classificação de hoje são distorcidas porque elas dependem muito de feedback de um grupo estreito de que os contos de seus novos são os que são os que são mais importantes para o público, o que é mais importante para o público, o que é mais importante para o público, o que é mais importante para o público. Rede de colaboradores. Essa rede abrange mais de 100 países, 70 idiomas e várias profissões, prometendo uma avaliação mais representativa e realista do desempenho do modelo. Isso permite que desenvolvedores e clientes vejam como os modelos se apresentam para públicos específicos, em vez de confiar em uma única pontuação monolítica. Ele também mostra como modelos como Gemini tem melhor desempenho com usuários não ingleses, oferecendo informações anteriormente indisponíveis ao público.
Crucialmente, a escala também está implementando salvaguardas contra a manipulação. A Companhia afirma que não venderá ou licenciará dados recentes da mesma distribuição que a tabela de classificação ao vivo. Essa política foi projetada para impedir que os laboratórios de IA simplesmente ajustem seus modelos para o”jogo”dos rankings, forçando-os a construir sistemas genuinamente capazes. Como o CEO da Turing, Jonathan Siddharth, argumentou após o acordo de meta,”a neutralidade não é mais opcional, é essencial”. Ao lançar uma plataforma construída sobre transparência e neutralidade, a Scale AI está tentando recuperar essa qualidade essencial. É uma oferta de alto risco para a redenção. Para uma empresa cuja reputação foi destruída por um acordo que comprometeu sua independência, construir o benchmark mais confiável do setor pode ser o único caminho de volta a uma posição de liderança.