O Google DeepMind atualiza as regras de segurança da IA para combater a"manipulação prejudicial"e modelos que resistem ao desligamento

O Google Deepmind atualizou suas principais regras de segurança de IA para combater riscos novos e sérios. Na segunda-feira, a empresa lançou a versão 3.0 de sua estrutura de segurança de fronteira. Isso inclui a chance futura de que uma IA resista a ser fechada por seus operadores humanos. A atualização faz parte de um esforço mais amplo da indústria para gerenciar os perigos de sistemas de IA cada vez mais poderosos e construir confiança pública. Representa a tentativa mais abrangente do Google ainda de identificar e mitigar riscos graves de seus modelos de IA mais avançados à medida que avançam em direção à inteligência geral artificial (AGI). href=”https://storage.googleapis.com/deepmind-media/deepmind.com/blog/strendingening-our-frontier-sáfety-framework/frontier-safety-framework_3.pdf”Target=”_”> Clanchework). Esta nova categoria aborda modelos com poderosas habilidades persuasivas que podem ser mal utilizadas para alterar sistematicamente crenças e comportamentos em situações de alto risco, potencialmente causando danos graves e em larga escala.

Na empresa de estrutura de uma pesquisa, o que se baseia em PSID para a pesquisa sobre esse tipo de pesquisa sobre a pesquisa sobre a pesquisa sobre a pesquisa sobre o trabalho sobre o trabalho sobre o trabalho sobre esse tipo de pesquisa sobre o que se baseia em PSION e

Talvez de maneira mais impressionante, a estrutura agora aborda explicitamente”riscos de desalinhamento”

descreve os protocolos para os cenários futuros, onde um MODIFIMENTO PODERIDO

PSILIMENTO

Descida a capacidade de operação

Uma vez que o domínio da ficção científica é agora uma parte formal do planejamento de segurança do Google, indo além do que antes era uma abordagem exploratória. Como mitigação em potencial, o Google propõe um sistema de monitoramento automatizado para detectar raciocínio ilícito na cadeia de pensamento de um modelo. O anúncio não existe no vácuo. É uma resposta direta a um ano desastroso para agentes de IA, marcados por falhas de alto perfil que corroeram a confiança pública e desenvolvedora.

O usuário, Anuraag Gupta, descreveu o evento, dizendo:”O que começou como um simples teste de gerenciamento de arquivos se transformou em uma das falhas de IA mais perturbador e fascinante que já testemunhei”. Este foi um incidente isolado.

Outras falhas incluem um agente de IA de Replit Excluindo um banco de dados de produção e um hacker que incorpore os comandos de Wiping System no q Ai Assistant da Amazon. Para AGI

O esforço para a transparência agora se tornou um coro em todo o setor. Os principais rivais como o OpenAI e o Antropic também publicaram recentemente suas próprias estruturas de segurança extensas.

O método de’concepções seguras’do OpenAI para GPT-5 visa navegar ambíguas de”uso duplo”de consultas com mais nuances.

A empresa argumenta que um padrão flexível e liderado pela indústria é um caminho mais eficaz a seguir do que as regras rígidas do governo. Evolução rápida da própria tecnologia. Essas estruturas visam codificar o que tem sido, até agora, compromissos em grande parte voluntários. href=”https://deepmind.google/discover/blog/strendingen-our-frontier-safety-framework/”Target=”_ Blank”> escreveu em seu anúncio post , “O caminho para a AGI benéfica não requer apenas os intervalos técnicos, mas também as estruturas de robustezes para que as estruturas de mitigação benéficas sejam apenas técnicas. Esse esforço coletivo agora é visto como essencial para o futuro da IA.

O Google DeepMind atualiza as regras de segurança da IA para combater a”manipulação prejudicial”e modelos que resistem ao desligamento

Published by All Things Windows on September 22, 2025

IT Info

Como restaurar o WordPad no Windows 11 (2 métodos)

IT Info

O Windows 11 está recebendo um recurso de papel de parede de vídeo

IT Info

Xai lança Grok-4-Fast, um modelo de IA mais barato e mais eficiente

O Google DeepMind atualiza as regras de segurança da IA ​​para combater a”manipulação prejudicial”e modelos que resistem ao desligamento

Published by All Things Windows on September 22, 2025

Related Posts

IT Info

Como restaurar o WordPad no Windows 11 (2 métodos)

IT Info

O Windows 11 está recebendo um recurso de papel de parede de vídeo

IT Info

Xai lança Grok-4-Fast, um modelo de IA mais barato e mais eficiente

O Google DeepMind atualiza as regras de segurança da IA para combater a”manipulação prejudicial”e modelos que resistem ao desligamento