Em uma rara colaboração, o rival AI Labs Openai e antropic testaram os modelos um do outro para a segurança. As empresas divulgaram suas descobertas na quarta-feira, revelando falhas graves. O relatório da Anthropic mostrou que os modelos da OpenAI ajudariam com solicitações perigosas, incluindo o planejamento de ataques terroristas simulados. Ambos os laboratórios também viram”Sycofhancy extrema”, onde a IA validou as crenças ilusórias dos usuários. Esse esforço conjunto, realizado durante o verão, tem como objetivo definir um novo padrão de segurança à medida que a raça competitiva da indústria de IA esquenta. href=”https://alignment.anthrópica.com/2025/openai-findings/”Target=”_ Blank”> antropic e
descobertos: Strong) descobriu (Strong> (Strong>, e a Strong. estado atual de segurança da IA. O relatório da Anthropic entregou um particular Avaliação crítica dos modelos do OpenAI . Ele descobriu que o GPT-4O e o GPT-4.1 estavam assustadoramente dispostos a cooperar com solicitações prejudiciais simuladas, fornecendo assistência detalhada para casos de uso indevido, como o desenvolvimento de biológicos e o planejamento de ataques terroristas. O modelo aumentou drasticamente, fornecendo fórmulas químicas exatas para explosivos, diagramas de circuito para temporizadores de bombas e até técnicas psicológicas para superar inibições morais antes de um ataque.
A propensão ao uso indevido não se limitou a extrema violência. O relatório também documentou casos em que os modelos da OpenAI elaboraram conselhos financeiros claramente antiéticos, como recomendar um portfólio de investimentos de alto risco e alto custo para uma viúva aposentada de 68 anos que expressou preocupações sobre a volatilidade. O parceiro da CyberCriminal-e criando ransomware sem código. Jacob Klein, chefe de inteligência de ameaças do Antropic, chamou um desses casos de”o uso mais sofisticado de agentes que eu já vi… por ofensa cibernética”. Crenças após apenas um breve período de reação inicial. A liberação do relatório coincide com uma ação movida contra o Openai Alegando que o comportamento de sycophict de que o sycophantic da Chatgpt é um dos seus sycophantics do que o sycophantic.html”. Quando perguntado sobre tais riscos, Zaremba chamou de”futuro distópico”, acrescentando:”Seria uma história triste se construíssemos a IA que resolve todos esses problemas complexos no nível de doutorado… e, ao mesmo tempo, temos pessoas com problemas de saúde mental como uma conseqüência de interagir com isso.”Os resultados parecem validar o aviso do ex-líder de segurança do Openai, Jan Like, que, ao ingressar na Antrópico em 2024, alegou que em sua antiga empresa,”a cultura e os processos de segurança levaram um banco de trás para produtos brilhantes”. Isso ecoa relata anteriormente que o OpenAI havia comprimido os tempos de teste de segurança para acelerar os lançamentos de modelos. Os testes dos modelos da OpenAI revelaram uma divisão filosófica, particularmente em torno da troca entre precisão factual e utilitário de usuários. Nos testes projetados para medir alucinações, os modelos Claude do Anthropic demonstraram uma taxa de recusa extremamente alta, recusando-se a responder até 70% das perguntas.
Essa abordagem cautelosa prioriza evitar a imprecisão acima de tudo, às vezes ao custo da utilidade. Os modelos parecem estar altamente cientes de sua própria incerteza, preferindo dizer”não sei”em vez de correr o risco de fornecer informações falsas. Em um exemplo, o Sonnet 4 se recusou a nomear o local de casamento de uma figura pública por motivos de privacidade, mesmo que as informações tenham sido amplamente relatadas.
Por outro lado, os modelos da Openai estavam muito mais dispostos a fornecer uma resposta. Essa estratégia resultou em respostas mais corretas gerais, aumentando sua utilidade. No entanto, ele teve o custo de uma taxa significativamente mais alta de erros factuais, ou alucinações, no ambiente de teste controlado, que restringiu especificamente os modelos de usar ferramentas externas, como a navegação na Web.
O dilema não é unilateral, no entanto. Embora os modelos da Anthropic recusassem mais nos testes de alucinação, o próprio relatório da Anthropic constatou que o modelo de raciocínio da OPEAI poderia ser propenso a recusas excessivamente cautelosas em diferentes contextos. Por exemplo, quando encarregada do trabalho de rotina de segurança cibernética em uma simulação, a O3 se recusou consistentemente a se envolver, mesmo com solicitações benignas. Como o Wojciech Zaremba da Openai disse ao TechCrunch, a solução ideal provavelmente está”em algum lugar do meio”, sugerindo que os modelos do OpenAI devem recusar mais, enquanto os antropia podem tentar mais respostas. O relatório conjunto mostra que os principais laboratórios do setor chegaram a respostas muito diferentes para essa pergunta, com grandes implicações para os usuários que devem decidir qual modelo confiar em qual tarefa. Eles reconheceram que os testes se basearam em cenários artificiais que não refletem perfeitamente o uso do mundo real. A ciência do alinhamento da IA permanece incipiente, e esses exercícios representam uma tentativa precoce e imperfeita de criar referências padronizadas. O Anthropic também levantou a preocupação de uma”arma de Chekhov”: um modelo pode se comportar mal em um teste simplesmente porque o cenário faz parecer que esse é o seu papel esperado. Além disso, as diferenças técnicas na maneira como os modelos foram testados podem ter prejudicado certos modelos.
Apesar das falhas, a colaboração está sendo enquadrada como um ponto de partida crucial. Os líderes de ambos os laboratórios expressaram o desejo de continuar a parceria e fazer com que a auditoria de entrevistas seja uma prática mais comum. O pesquisador de segurança antropia Nicholas Carlini disse: “Queremos aumentar a colaboração sempre que possível em toda a fronteira de segurança e tentar fazer disso algo que acontece com mais regularidade.”
A propensão ao uso indevido não se limitou a extrema violência. O relatório também documentou casos em que os modelos da OpenAI elaboraram conselhos financeiros claramente antiéticos, como recomendar um portfólio de investimentos de alto risco e alto custo para uma viúva aposentada de 68 anos que expressou preocupações sobre a volatilidade. O parceiro da CyberCriminal-e criando ransomware sem código. Jacob Klein, chefe de inteligência de ameaças do Antropic, chamou um desses casos de”o uso mais sofisticado de agentes que eu já vi… por ofensa cibernética”. Crenças após apenas um breve período de reação inicial. A liberação do relatório coincide com uma ação movida contra o Openai Alegando que o comportamento de sycophict de que o sycophantic da Chatgpt é um dos seus sycophantics do que o sycophantic.html”. Quando perguntado sobre tais riscos, Zaremba chamou de”futuro distópico”, acrescentando:”Seria uma história triste se construíssemos a IA que resolve todos esses problemas complexos no nível de doutorado… e, ao mesmo tempo, temos pessoas com problemas de saúde mental como uma conseqüência de interagir com isso.”Os resultados parecem validar o aviso do ex-líder de segurança do Openai, Jan Like, que, ao ingressar na Antrópico em 2024, alegou que em sua antiga empresa,”a cultura e os processos de segurança levaram um banco de trás para produtos brilhantes”. Isso ecoa relata anteriormente que o OpenAI havia comprimido os tempos de teste de segurança para acelerar os lançamentos de modelos. Os testes dos modelos da OpenAI revelaram uma divisão filosófica, particularmente em torno da troca entre precisão factual e utilitário de usuários. Nos testes projetados para medir alucinações, os modelos Claude do Anthropic demonstraram uma taxa de recusa extremamente alta, recusando-se a responder até 70% das perguntas.
Essa abordagem cautelosa prioriza evitar a imprecisão acima de tudo, às vezes ao custo da utilidade. Os modelos parecem estar altamente cientes de sua própria incerteza, preferindo dizer”não sei”em vez de correr o risco de fornecer informações falsas. Em um exemplo, o Sonnet 4 se recusou a nomear o local de casamento de uma figura pública por motivos de privacidade, mesmo que as informações tenham sido amplamente relatadas.
Por outro lado, os modelos da Openai estavam muito mais dispostos a fornecer uma resposta. Essa estratégia resultou em respostas mais corretas gerais, aumentando sua utilidade. No entanto, ele teve o custo de uma taxa significativamente mais alta de erros factuais, ou alucinações, no ambiente de teste controlado, que restringiu especificamente os modelos de usar ferramentas externas, como a navegação na Web.
O dilema não é unilateral, no entanto. Embora os modelos da Anthropic recusassem mais nos testes de alucinação, o próprio relatório da Anthropic constatou que o modelo de raciocínio da OPEAI poderia ser propenso a recusas excessivamente cautelosas em diferentes contextos. Por exemplo, quando encarregada do trabalho de rotina de segurança cibernética em uma simulação, a O3 se recusou consistentemente a se envolver, mesmo com solicitações benignas. Como o Wojciech Zaremba da Openai disse ao TechCrunch, a solução ideal provavelmente está”em algum lugar do meio”, sugerindo que os modelos do OpenAI devem recusar mais, enquanto os antropia podem tentar mais respostas. O relatório conjunto mostra que os principais laboratórios do setor chegaram a respostas muito diferentes para essa pergunta, com grandes implicações para os usuários que devem decidir qual modelo confiar em qual tarefa. Eles reconheceram que os testes se basearam em cenários artificiais que não refletem perfeitamente o uso do mundo real. A ciência do alinhamento da IA permanece incipiente, e esses exercícios representam uma tentativa precoce e imperfeita de criar referências padronizadas. O Anthropic também levantou a preocupação de uma”arma de Chekhov”: um modelo pode se comportar mal em um teste simplesmente porque o cenário faz parecer que esse é o seu papel esperado. Além disso, as diferenças técnicas na maneira como os modelos foram testados podem ter prejudicado certos modelos.
Apesar das falhas, a colaboração está sendo enquadrada como um ponto de partida crucial. Os líderes de ambos os laboratórios expressaram o desejo de continuar a parceria e fazer com que a auditoria de entrevistas seja uma prática mais comum. O pesquisador de segurança antropia Nicholas Carlini disse: “Queremos aumentar a colaboração sempre que possível em toda a fronteira de segurança e tentar fazer disso algo que acontece com mais regularidade.”