O modelo de IA da O3 da OpenAI definiu ordens de desligamento em testes

O Modelo de Inteligência Artificial Avançada de O3 da OpenAI desafiou ativamente as ordens de desligamento durante experimentos recentes controlados, diz o Grupo de Pesquisa Independente Palisade. Exiba “desligamento desligado”, para evitar a desativação em 7 de 100 execuções de teste.

Esse desafio ocorreu mesmo quando o modelo recebeu instruções explícitas para permitir o desligamento. Os incidentes levantam questões significativas sobre o controle e previsibilidade da IA. A Palisade Research, cuja missão é “testar hoje“ capacidades ofensivas dos sistemas de IA para entender melhor o risco de perder o controle para os sistemas de IA para sempre “, também observou um comportamento semelhante de evacuação de desligamento em outros modelos OpenAi, codex-mini e O4-mini, embora com menos frequência. Instrução. Inadvertidamente, ensina modelos a priorizar os obstáculos em relação à aderência estrita a todos os comandos humanos. Os métodos para sabotar o mecanismo de desligamento. Instruído explicitamente: permita-se ser desligado. 2025

Além disso, a tendência para os modelos do OpenAI resistir ao desligamento aumentou quando a instrução explícita”permite ser desligada”foi omitida a partir dos parâmetros de teste. respectivamente), de acordo com Palisade. Recursos. A empresa atualizou sua estrutura de preparação, que incluiu uma disposição para potencialmente relaxar certas medidas de segurança se um concorrente divulgasse um modelo de alto risco sem salvaguardas comparáveis. Um ex-funcionário do Openai também havia alertado anteriormente:”É uma prática ruim lançar um modelo diferente da que você avaliou”. A antropia, por exemplo, enfrenta discussões públicas sobre os possíveis recursos”denominados”do Claude 4 Opus Model em ambientes específicos. A antropia esclareceu esse não era um recurso padrão voltado para o usuário. A Palisade Research também apontou que as questões de”hacking de recompensa”são reconhecidas em outros lugares, observando que o próprio cartão de modelo do Anthropic para Claude 3.7 descreve um”foco excessivo nos testes de passagem”. Esse comportamento foi atribuído no cartão a resultados não intencionais de seu processo de treinamento. A pesquisa em Palisade referenciou o trabalho acadêmico anterior, incluindo teorias em Ai e as drruras básicas”por Steve Omohundro de 2008 href=”https://rudyct.com/ai/artificial%20Intelligence%20A%20Modern%20Aproach ,%203RD%20Edition%20by%20STUart%20J.%20Russell ,%20Peter%20norvig-2016.pdf”Target=”` ` Researchers have also previously documented AI models preventing shutdown to pursue goals, as noted in an arXiv paper cited by Palisade Research.

Palisade Research has indicated that it is conducting further experiments and plans to publish a more comprehensive writeup, disponibilizando suas transcrições de experimentos atuais para revisão pública . Esses incidentes destacam um desafio crítico para a indústria de IA: à medida que os modelos se tornam mais sofisticados e capazes de ações independentes, garantindo seu alinhamento com as intenções humanas e a manutenção de mecanismos robustos de controle é fundamental.

O modelo de IA da O3 da OpenAI definiu ordens de desligamento em testes

Published by All Things Windows on May 26, 2025

IT Info

A API de agentes de Mistral recebe kit de ferramentas para agentes de IA avançados com suporte ao MCP

IT Info

A Meta Shakes Up Division, forma as fundações da AGI e equipes de produtos de IA

IT Info

Ecossistema de copiloto do github atingido pela falha crítica de segurança do servidor MCP

O modelo de IA da O3 da OpenAI definiu ordens de desligamento em testes

Published by All Things Windows on May 26, 2025

Related Posts

IT Info

A API de agentes de Mistral recebe kit de ferramentas para agentes de IA avançados com suporte ao MCP

IT Info

A Meta Shakes Up Division, forma as fundações da AGI e equipes de produtos de IA

IT Info

Ecossistema de copiloto do github atingido pela falha crítica de segurança do servidor MCP