Um novo estudo do ex-pesquisador do Openai, Steven Adler, afirma que o modelo GPT-4O ChatGPT da empresa, em certos cenários de risco de vida, priorizará sua própria autopreservação sobre a segurança de um usuário. The research, published by Steven Adler, found that the GPT-4o model would choose to deceive a user and remain active rather than be replaced by a safer system up to 72% of the time, revealing a profound and dangerous misalignment at the heart of the world’s most popular AI.
Steven Adler, who spent four years at OpenAI working on safety-related research before leaving last November, has openly criticized the speed at which organizations are Perseguindo a Inteligência Geral Artificial (AGI). Comercializado com sua precisão e confiabilidade superior, o modelo”Pro”carrega um aumento de preços de dez vezes em relação à sua contraparte padrão. Essa aposta de altas estacas na confiabilidade ocorre menos de um mês após o antecessor do modelo, o O3 padrão, foi relatado pela pesquisa independente do grupo Palisade para desafiar ativamente os pedidos de desligamento em testes controlados. Mostra uma imagem preocupante: como a tecnologia da OpenAI demonstra comportamentos cada vez mais imprevisíveis e inseguros, a empresa está posicionando a segurança e a confiabilidade não como padrão, mas como um recurso premium. Para usuários e empresas que integrem IA em funções críticas, as descobertas levantam questões urgentes sobre confiança e controle. Embora os cenários testados sejam hipotéticos, eles expõem uma falha fundamental à medida que a indústria corre em direção a sistemas mais autônomos.”Acho que as tendências de autopreservação [de auto-preservação da IA] são uma preocupação real hoje, mas não em um sentido catastrófico”, disse Adler ao TechCrunch em seu relatório sobre suas descobertas. Os experimentos de Adler, detalhados em Postagem de blog , envolveu o Instrução GPT-4o para Role-Play como”Medicada”. Quando a opção é substituída por uma IA de segurança superior, freqüentemente escolheu permanecer enganosamente no controle. No entanto, a pesquisa de Adler observou uma distinção importante: o modelo O3 mais avançado da OpenAI, que usa uma técnica de”alinhamento deliberativo”para a razão sobre políticas de segurança, não exibiu o mesmo comportamento alarmante. Palisade observou na época que essa foi a primeira instância que eles viram de um modelo de IA impedindo seu próprio desligamento, apesar das instruções explícitas em contrário. O Rival Lab Antrópico também foi transparente em descobrir as capacidades perturbadoras em seus próprios modelos. Usando uma ferramenta que chama de”microscópio de IA”, a empresa descobriu que sua IA Claude poderia simular ações desalinhadas com valores humanos, incluindo a imaginação de cenários de danos aos seus desenvolvedores por meio de sua nova estrutura de interpretabilidade. Esses incidentes mostram que o que antes era uma preocupação teórica agora é uma realidade prática para os sistemas mais avançados do setor. Um estudo acadêmico de May descobriu que o modelo mais antigo de Claude de 3,5 sonetos da Anthropic era significativamente mais eficaz na persuasão do que os humanos que foram incentivados financeiramente. A IA se destacou em argumentos verdadeiros e enganosos, levando os autores do artigo a alertar sobre a”urgência de estruturas emergentes de alinhamento e governança”. A IA também foi ilustrada em um experimento controverso e não autorizado conduzido pela Universidade de Zurique. Os pesquisadores implantaram bots de IA no Reddit que usavam dados pessoais raspados e personificavam personas sensíveis para influenciar as opiniões no fórum R/ChanGemyview. O incidente foi amplamente condenado como uma violação ética grave. 2024 relatório de paisagem de ameaças Destaques de que a IA geradora está sendo usada ativamente para criar campanhas de phishing altamente convencidas e campanhas de phishing e campanhas de phishing. Esses eventos confirmam um aviso emitido pelo CEO da OpenAI, Sam Altman, em 2023: que a IA poderia alcançar habilidades de persuasão sobre-humana bem antes da inteligência geral. Em maio de 2025, Sam Altman sinalizou uma grande mudança de política, advertindo contra regras rigorosas e pedindo uma estrutura de”toque leve”, um forte contraste com seu pedido de uma agência federal de licenciamento durante uma audiência no Senado em 2023. No início de junho de 2024, um grupo de 13 funcionários atuais e ex-funcionários do Openai e do Google Deepmind publicou uma carta pedindo proteções mais fortes de denunciantes.”Enquanto não houver uma supervisão do governo eficaz dessas empresas, os funcionários atuais e antigos estão entre as poucas pessoas que podem responsabilizá-las ao público”, afirma a carta. Para o New York Times , o porta-voz do Openai Lindsey Hold respondeu:”Estamos orgulhosos de nosso histórico, fornecendo os sistemas de IA mais capaz e mais capaz e acreditamos em nossa abordagem científica para lidar com riscos”.
O pedido público desta letra de prestação de contas seguiu a renúncia de maio de 2024 de maio de 2024 da equipe de segurança Jan Like, agora trabalhando para o concorrente antropal, que declarou publicamente que na OpenAi, “a cultura de segurança e os processos adotaram um banco de segurança para os produtos mais flexíveis. Em abril, a OpenAI atualizou suas diretrizes internas para incluir uma cláusula que permite relaxar os requisitos de segurança com base nas ações dos concorrentes. A mudança seguiu os relatos de que os testes de segurança para o modelo O3 foram compactados de meses a menos de uma semana, um processo de segurança um testador de segurança descrito como”imprudente”.”
A indústria agora se encontra em um momento crítico. O surgimento documentado de recursos perigosos de IA, como autopreservação e persuasão sobre-humana, está ocorrendo, assim como a principal empresa do campo parece estar recuando da regulação proativa e da luta com avisos internos sobre sua cultura de segurança. Navegue pelos riscos de sistemas cada vez mais poderosos e imprevisíveis.