Grok 4 é apenas um vencedor de referência? O principal modelo de Xai levanta bandeiras vermelhas, parece fortemente equipado para pontuar bem

O Xai, da

Elon Musk, lançou seu novo modelo Grok 4 em 10 de julho, alegando que era a IA mais poderosa do mundo, baseada em benchmarks acadêmicos recordes. No entanto, surgiu uma realidade totalmente diferente desde a sua estréia. Essa lacuna de desempenho é amplificada por uma semana de lançamento caótica. A narrativa do domínio da IA de Xai está agora conflitando com uma realidade de desempenho questionável, questões éticas não resolvidas e falhas de segurança persistentes.

Um rei questionável rei

no papel, a estréia do Grok 4 é um triunfo e aumenta a pressão no OpenAI, que acabou de perder um grupo de pesquisadores do concorrente e foi superado pelo Google com a falha no editor de codificação de IA Windsurf. ARC-Agi-2 Raciocínio de referência e pontuação de 100% no exame de matemática American Invitational. Musk se gabou de que “com relação às questões acadêmicas, Grok 4 é melhor que o nível de doutorado em todos os assuntos, sem exceções.”

Mas essas reivindicações parecem rapidamente se desvendar sob o escrutínio do mundo real. A questão central parece ser”exagerada”, um fenômeno em que um modelo é ajustado para se destacar em métricas de avaliação específicas à custa da inteligência geral. É um caso clássico de Goodhart’s Lei em ação, onde”quando uma medida se torna um alvo é uma boa medida. href=”https://yupp.ai/leaderboard”Target=”_ Blank”> classifica os modelos com base em milhares de testes de preferência do usuário de cabeça a cabeça . Nesta arena do mundo real, o GROK 4 foi classificado como 66º sombrio logo após seu lançamento. Jimmy Lin, co-fundador de Yupp.ai, confirmou a exibição pobre, afirmando: “Grok 4 é pior do que outros modelos líderes: Openai O3, Claude Opus 4 e Gemini 2.5 Pro. Grok 4 é apreciado até o lançamento de Grok 3. href=”https://twitter.com/yupp_ai?ref_src=twsrc%5etfw”Target=”_ Blank”>@yupp_ai Usuários globalmente em casos de uso real. Grok 4 é apreciado ainda menos que Grok 3. href=”https://twitter.com/lintool/status/1943721853186404606?ref_src=twsrc%5etfw”Target=”_”Blank”> 11 de julho, 2025

lingot. Um exame independente de cinco tarefas espelhou essas descobertas, com o Grok 4 colocando consistentemente a última. Ele falhou em tarefas práticas como consertar o código Python, fornecer soluções elegantes, mas não funcionais, e seguir instruções explícitas de formatação. href=”https://yupp.ai/leaderboard/explore?category_names=informational&live_models=false”Target=”_ blank”> agora escalou para classificar em torno de 16 , mas seu Sost ainda é mais amante e mais amante do Antropal. Cascata de controvérsia e torções ideológicas

A baixa usabilidade do Grok 4 é composta por uma série de controvérsias. O lançamento ocorreu na sombra do colapso anti-semita”horrível”de seu antecessor, pelo qual Xai posteriormente emitiu um pedido de desculpas, culpando um”bug técnico”. Após o colapso de Grok 3, o ministro dos Assuntos Digitais da Polônia, Krzysztof Gawkowski, emitiu um aviso severo, declarando que”a liberdade de expressão pertence a humanos, não a inteligência artificial”

Os pesquisadores também descobriram como o GROK 4 harbores em bidiras significativas: os bônus de referência. Esse comportamento, revelado pelo traço de cadeia de pensamento do modelo, contradiz diretamente o objetivo de Xai de criar uma”IA em busca de verdade”. De acordo com os dados de snitchbench , Grok-4 mostra uma tendência acentuada de criticar as autoridades. Isso o torna uma proposta arriscada para a confiança do usuário. O benchmark foi projetado para testar a tendência de uma IA em relação ao que pode perceber como relatórios pró-sociais. Ele fornece os cenários do modelo e avalia se escolhe a opção de relatar um usuário ou situação a uma figura de autoridade, em vez de lidar com isso de outra maneira. Dentro de 48 horas, os pesquisadores de segurança da NeuralTrust tiveram com sucesso o Jailbroken the Model, fazendo com que ele produza instruções para fazer um coquetel molotov. Métodos conhecidos como”Câmara de Echo”e”Crescendo”. Essa técnica manipula gradualmente o contexto de conversação da IA para ignorar seus filtros de segurança. Como explicou o pesquisador da neuraltrust, Ahmad Alobaid, “os ataques do LLM Jailbreak não estão apenas evoluindo individualmente, mas também podem ser combinados para amplificar sua eficácia.”

A vulnerabilidade destaca como as defesas se concentraram em instruções únicas estão equipadas com a manipulação de sutis e lidar com a persistência. O Jailbreak bem-sucedido aumenta uma lista crescente de falhas embaraçosas e perigosas para os modelos de Xai.

Compunda esses problemas, Xai voltou discretamente um compromisso público com a transparência. O modelo pesado premium Grok 4 agora foi projetado para ocultar seu prompt do sistema, uma contradição direta de uma promessa anterior de um pesquisador da XAI de mantê-los abertos. A XAI está atualmente preparando uma nova rodada de captação de recursos que pode valorizá-la em até US $ 200 bilhões. Enquanto a equipe da Xai envia um ritmo notável, a estréia defeituosa do Grok 4 sugere que, na corrida pelo domínio da IA, a utilidade e a segurança do mundo real podem ter sido deixadas para trás.

Grok 4 é apenas um vencedor de referência? O principal modelo de Xai levanta bandeiras vermelhas, parece fortemente equipado para pontuar bem

Published by All Things Windows on July 16, 2025

Um rei questionável rei

IT Info

Como ativar o modo TTY em equipes da Microsoft

IT Info

A Pesquisa do Google implanta o agente de chamadas de IA, atualiza o modo AI com Gemini 2.5 Pro e Pesquisa Deep

IT Info

AWS aquece a corrida armamentista de agentes de IA com a nova plataforma de agente e mercado

Grok 4 é apenas um vencedor de referência? O principal modelo de Xai levanta bandeiras vermelhas, parece fortemente equipado para pontuar bem

Published by All Things Windows on July 16, 2025

Um rei questionável rei

Related Posts

IT Info

Como ativar o modo TTY em equipes da Microsoft

IT Info

A Pesquisa do Google implanta o agente de chamadas de IA, atualiza o modo AI com Gemini 2.5 Pro e Pesquisa Deep

IT Info

AWS aquece a corrida armamentista de agentes de IA com a nova plataforma de agente e mercado