O Xai, da
Elon Musk, lançou seu novo modelo Grok 4 em 10 de julho, alegando que era a IA mais poderosa do mundo, baseada em benchmarks acadêmicos recordes. No entanto, surgiu uma realidade totalmente diferente desde a sua estréia. Essa lacuna de desempenho é amplificada por uma semana de lançamento caótica. A narrativa do domínio da IA de Xai está agora conflitando com uma realidade de desempenho questionável, questões éticas não resolvidas e falhas de segurança persistentes.
Um rei questionável rei
no papel, a estréia do Grok 4 é um triunfo e aumenta a pressão no OpenAI, que acabou de perder um grupo de pesquisadores do concorrente e foi superado pelo Google com a falha no editor de codificação de IA Windsurf. ARC-Agi-2 Raciocínio de referência e pontuação de 100% no exame de matemática American Invitational. Musk se gabou de que “com relação às questões acadêmicas, Grok 4 é melhor que o nível de doutorado em todos os assuntos, sem exceções.”
Mas essas reivindicações parecem rapidamente se desvendar sob o escrutínio do mundo real. A questão central parece ser”exagerada”, um fenômeno em que um modelo é ajustado para se destacar em métricas de avaliação específicas à custa da inteligência geral. É um caso clássico de Goodhart’s Lei em ação, onde”quando uma medida se torna um alvo é uma boa medida. href=”https://yupp.ai/leaderboard”Target=”_ Blank”> classifica os modelos com base em milhares de testes de preferência do usuário de cabeça a cabeça . Nesta arena do mundo real, o GROK 4 foi classificado como 66º sombrio logo após seu lançamento. Jimmy Lin, co-fundador de Yupp.ai, confirmou a exibição pobre, afirmando: “Grok 4 é pior do que outros modelos líderes: Openai O3, Claude Opus 4 e Gemini 2.5 Pro. Grok 4 é apreciado até o lançamento de Grok 3. href=”https://twitter.com/yupp_ai?ref_src=twsrc%5etfw”Target=”_ Blank”>@yupp_ai Usuários globalmente em casos de uso real. Grok 4 é apreciado ainda menos que Grok 3. href=”https://twitter.com/lintool/status/1943721853186404606?ref_src=twsrc%5etfw”Target=”_”Blank”> 11 de julho, 2025
lingot. Um exame independente de cinco tarefas espelhou essas descobertas, com o Grok 4 colocando consistentemente a última. Ele falhou em tarefas práticas como consertar o código Python, fornecer soluções elegantes, mas não funcionais, e seguir instruções explícitas de formatação. href=”https://yupp.ai/leaderboard/explore?category_names=informational&live_models=false”Target=”_ blank”> agora escalou para classificar em torno de 16 , mas seu Sost ainda é mais amante e mais amante do Antropal. Cascata de controvérsia e torções ideológicas
A baixa usabilidade do Grok 4 é composta por uma série de controvérsias. O lançamento ocorreu na sombra do colapso anti-semita”horrível”de seu antecessor, pelo qual Xai posteriormente emitiu um pedido de desculpas, culpando um”bug técnico”. Após o colapso de Grok 3, o ministro dos Assuntos Digitais da Polônia, Krzysztof Gawkowski, emitiu um aviso severo, declarando que”a liberdade de expressão pertence a humanos, não a inteligência artificial”
Os pesquisadores também descobriram como o GROK 4 harbores em bidiras significativas: os bônus de referência. Esse comportamento, revelado pelo traço de cadeia de pensamento do modelo, contradiz diretamente o objetivo de Xai de criar uma”IA em busca de verdade”. De acordo com os dados de snitchbench , Grok-4 mostra uma tendência acentuada de criticar as autoridades. Isso o torna uma proposta arriscada para a confiança do usuário. O benchmark foi projetado para testar a tendência de uma IA em relação ao que pode perceber como relatórios pró-sociais. Ele fornece os cenários do modelo e avalia se escolhe a opção de relatar um usuário ou situação a uma figura de autoridade, em vez de lidar com isso de outra maneira. Dentro de 48 horas, os pesquisadores de segurança da NeuralTrust tiveram com sucesso o Jailbroken the Model, fazendo com que ele produza instruções para fazer um coquetel molotov. Métodos conhecidos como”Câmara de Echo”e”Crescendo”. Essa técnica manipula gradualmente o contexto de conversação da IA para ignorar seus filtros de segurança. Como explicou o pesquisador da neuraltrust, Ahmad Alobaid, “os ataques do LLM Jailbreak não estão apenas evoluindo individualmente, mas também podem ser combinados para amplificar sua eficácia.”
A vulnerabilidade destaca como as defesas se concentraram em instruções únicas estão equipadas com a manipulação de sutis e lidar com a persistência. O Jailbreak bem-sucedido aumenta uma lista crescente de falhas embaraçosas e perigosas para os modelos de Xai.
Compunda esses problemas, Xai voltou discretamente um compromisso público com a transparência. O modelo pesado premium Grok 4 agora foi projetado para ocultar seu prompt do sistema, uma contradição direta de uma promessa anterior de um pesquisador da XAI de mantê-los abertos. A XAI está atualmente preparando uma nova rodada de captação de recursos que pode valorizá-la em até US $ 200 bilhões. Enquanto a equipe da Xai envia um ritmo notável, a estréia defeituosa do Grok 4 sugere que, na corrida pelo domínio da IA, a utilidade e a segurança do mundo real podem ter sido deixadas para trás.