O Xai de
Elon Musk lançou um novo modelo de codificação de IA, `GROK-Code-Fast-1`, na quinta-feira, entrando no mercado de codificação agêntica ferozmente competitiva, de acordo com relatos. A startup posiciona sua nova ferramenta como uma opção”rápida e econômica”, projetada para tarefas cotidianas do desenvolvedor, com o objetivo de desafiar jogadores como o Openai e Microsoft de acordo com seu anúncio oficial. Esse movimento aquece as “guerras de referência” em andamento a IA, onde as empresas competem incansavelmente pelas pontuações principais nos testes de desempenho em uma competição feroz. está sob crescente escrutínio da comunidade de desenvolvedores. Campeão de benchmark, mas como uma ferramenta criada por propósitos projetada para resolver uma frustração do desenvolvedor principal: velocidade. Target=”_ Blank”> Fluxos de trabalho de codificação Agentic , onde os loops iterativos das chamadas de raciocínio e ferramentas podem se tornar frustrantemente lentos. O novo modelo foi projetado desde o início para ser um “driver diário” ágil e responsivo para os desenvolvedores envolvidos nessas tarefas comuns. O processo de desenvolvimento envolveu a montagem de um corpus pré-treinamento rico em conteúdo relacionado à programação e a curadoria de conjuntos de dados pós-treinamento de alta qualidade que refletem solicitações de puxar no mundo real e tarefas de codificação de acordo com o oficial Java, Rust, C ++ e Go, e foram especificamente refinados para dominar ferramentas comuns de desenvolvedor como Grep, Terminal e Edição de Arquivos. Isso é ainda mais aprimorado pelas otimizações imediatas do cache que atingem regularmente taxas de acerto acima de 90% quando usadas com parceiros de lançamento, de acordo com Xai.
Esse foco no desempenho é emparelhado com uma estratégia econômica agressiva. A Companhia afirma:”Sua força está em oferecer um forte desempenho em um fator de forma econômico e compacto, tornando-a uma escolha versátil para enfrentar tarefas comuns de codificação de maneira rápida e econômica”. Isso se reflete em seus preços de apenas US $ 0,20 por milhão de tokens de entrada, US $ 1,50 para produção e US $ 0,02 para entradas em cache, diminuindo significativamente muitos rivais em uma ampla estratégia de parceria. O modelo, que foi silenciosamente testado sob o codinome `Sonic`, está sendo oferecido gratuitamente por um tempo limitado através de uma variedade de plataformas, incluindo copiloto do GitHub, cursor e windsurf. Mario Rodriguez, diretor de produtos do Github, observou:”Nos testes antecipados, o código GROK FAST mostrou sua velocidade e qualidade nas tarefas de codificação agêntica”, sinalizando a validação inicial da indústria para a abordagem de Xai. Supremacia na tabela de líderes do SWE-banco, a principal avaliação do setor para agentes de codificação de IA. A startup relatou uma pontuação respeitável de 70,8% no”subconjunto completo de verificação verificada do swe-banche”, usando seu próprio chicote de teste interno, resultado que, embora não seja recorde, o coloca firmemente no nível superior de um campo lotado. Engenharia de software do mundo real.”
O foco intenso da indústria em SWE-bench é por um bom motivo. Ao contrário dos testes sintéticos que medem habilidades isoladas, é uma avaliação exigente que reflete a realidade complexa e em várias etapas do desenvolvimento de software. Cada tarefa é derivada de um problema real do github encontrado em um dos 12 repositórios de python de código aberto amplamente utilizados.
Para ter sucesso, um agente de IA deve raciocinar, planejar e editar corretamente o código-geralmente em vários arquivos–orientação como um desenvolvedor humano faria, sem brechos. Isso o torna um verdadeiro teste dos recursos de engenharia prática de um agente. A última rodada começou em 5 de agosto, quando a Anthropic anunciou que seu novo Claude Opus 4.1 alcançou uma pontuação então com a arte de 74,5% na referência. Apenas dois dias depois, em 7 de agosto, o OpenAI combinou com o lançamento de seu GPT-5 altamente esperado, alegando que seu novo carro-chefe superou por pouco seu rival com uma taxa de sucesso de 74,9%, aproveitando imediatamente o primeiro lugar.
Esta série de anúncios de Rapid-Fire. O campo é ainda mais complicado pela presença de concorrentes menores, mas poderosos. Esta paisagem turbulenta e lotada é a arena na qual a Xai agora colocou estrategicamente seu novo candidato focado na velocidade. O lançamento do GPT-5 da OpenAI foi um excelente exemplo. Apesar de sua pontuação de recorde, o modelo foi atormentado por uma série de erros bizarros e erros factuais após seu lançamento.”Um’AutoSwitcher’com defeito entre os modos internos do modelo fez por mais tempo’parecer muito burro’do que o pretendido”, culpando uma falha técnica pelo mau desempenho. Essa desconexão alimentou amplo ceticismo sobre o valor dos benchmarks.
xai não é estranho a essa crítica. Seu modelo anterior, GROK 4, também foi criticado por ter sido equipado com excesso de testes acadêmicos enquanto falhava em cenários práticos. Jimmy Lin, co-fundador da plataforma de preferência de usuários Yupp.ai, afirmou sem rodeios: “Grok 4 é pior do que outros modelos líderes: Openai O3, Claude Opus 4 e Gemini 2.5 Pro. Grok 4 é apreciado ainda menos que Grok 3. Ao priorizar a velocidade, o custo e a usabilidade para tarefas agênticas, a empresa está fazendo uma aposta estratégica de que o utilitário do mundo real importa mais para os desenvolvedores do que um primeiro lugar em uma tabela de classificação na atual corrida do agente de IA. Ao evitar um confronto direto no topo das tabelas de classificação de desempenho, a empresa está apostando que um grande segmento do mercado de desenvolvedores priorizará a velocidade e o custo para tarefas agênticas diárias por ter o modelo mais poderoso-e potencialmente volátil-disponível.