Na feroz corrida pela supremacia da IA, Xai, de Elon Musk, pretendia direto o rival antropal. Um novo relatório mostra que, no início de julho, a Xai contratou contratados para treinar seu modelo GROK com um objetivo claro: venceu Claude da Anthropic em uma tabela de líderes de codificação pública. A mudança mostra a intensa pressão nos laboratórios da IA para os principais referências públicas, que atuam como um placar de chave para atrair investimentos e clientes. O principal modelo de Xai gera bandeiras vermelhas, parece fortemente equipado para pontuar bem
Esse foco ocorre quando o desempenho do mundo real do Grok 4 enfrenta questões difíceis dos usuários. Target=”_ Blank”> De acordo com Ao Business Insider, as instruções do projeto eram inequívocas. Os contratados foram encarregados de”HillClimb”, o ranking da GROK, com um documento de escala de IA de integração afirmando:”Queremos fazer do modelo no modelo o modelo nº 1″. O alvo específico foi o”Sonnet 3.7 Extended”da Antrópico, identificando a empresa como uma rival importante no espaço de codificação da IA. Para laboratórios como Xai, Antrópico e OpenAI, um primeiro lugar em um gráfico respeitado como a LMARENA pode se traduzir diretamente em um burburinho de mídia, contratos corporativos e uma avaliação mais alta.
A escolha do Target está dizendo. A Antrópica posicionou consistentemente seus modelos Claude como assistentes de codificação de primeira linha, uma reclamação apoiada por fortes performances de referência e adoção de desenvolvedores. Isso os torna o rival de fato a vencer.
Prática ou jogo padrão? Este é um método legítimo de melhorar um modelo ou está simplesmente ensinando ao teste para jogar o ranking? A comunidade de IA permanece dividida sobre o assunto.
Alguns especialistas o veem como uma parte normal do ciclo de desenvolvimento. O CEO da Lmarena, Anastasios Angelopoulos, o vê como procedimento padrão, dizendo ao Business Insider:”Isso faz parte do fluxo de trabalho padrão do treinamento de modelos. Você precisa coletar dados para melhorar seu modelo”. Nessa perspectiva, o uso de dados da tabela de classificação para encontrar e corrigir fraquezas é uma etapa lógica. Sara Hooker, chefe da Cohere Labs, argumentou que”quando uma tabela de classificação é importante para um ecossistema inteiro, os incentivos estão alinhados para que seja game”.
Isso não é apenas uma preocupação teórica. Em abril, a Meta enfrentou acusações de classificação de jogos após uma variante de seu modelo de lhama 4 Maverick usado para o benchmarking diferiu da versão pública, provocando um debate entre os pesquisadores. mundo. Este é um exemplo clássico da lei de Goodhart, onde uma medida deixa de ser útil quando se torna o alvo principal.
O lançamento do Grok 4 fornece uma ilustração reveladora disso. Enquanto Xai elogiou as pontuações recordes em testes acadêmicos, seu desempenho prático foi imediatamente questionado. Na plataforma de preferência de usuários Yupp.ai, que depende de comparações frente a frente, o GROK 4 classificou inicialmente o 66º Essa exibição ruim foi atribuída ao modelo sendo lento e propenso a erros em cenários do mundo real. Em meados de julho, o Grok 4 subiu para o 12º lugar na arena da Webdev, ainda seguindo os modelos do Anthropic. Estrategista da IA Nate Jones Escrevemos em seu boletim em que se reenchense,”o momento em que se destacamos. Para os desenvolvedores, isso significa que um modelo que Aces um exame ainda pode falhar nas tarefas de codificação prática que eles precisam executar. O esforço ocorre quando Xai busca uma nova rodada de captação de recursos que pode valorizá-la em até US $ 200 bilhões, fazendo manchetes positivas um ativo estratégico. Jogo de alto risco que está sendo jogado pela AI Labs, onde a percepção de domínio, impulsionada por gráficos de benchmark, pode ser tão importante quanto a utilidade prática real do modelo.