O Google Deepmind atualizou suas principais regras de segurança de IA para combater riscos novos e sérios. Na segunda-feira, a empresa lançou a versão 3.0 de sua estrutura de segurança de fronteira. Isso inclui a chance futura de que uma IA resista a ser fechada por seus operadores humanos. A atualização faz parte de um esforço mais amplo da indústria para gerenciar os perigos de sistemas de IA cada vez mais poderosos e construir confiança pública. Representa a tentativa mais abrangente do Google ainda de identificar e mitigar riscos graves de seus modelos de IA mais avançados à medida que avançam em direção à inteligência geral artificial (AGI). href=”https://storage.googleapis.com/deepmind-media/deepmind.com/blog/strendingening-our-frontier-sáfety-framework/frontier-safety-framework_3.pdf”Target=”_”> Clanchework). Esta nova categoria aborda modelos com poderosas habilidades persuasivas que podem ser mal utilizadas para alterar sistematicamente crenças e comportamentos em situações de alto risco, potencialmente causando danos graves e em larga escala.
Na empresa de estrutura de uma pesquisa, o que se baseia em PSID para a pesquisa sobre esse tipo de pesquisa sobre a pesquisa sobre a pesquisa sobre a pesquisa sobre o trabalho sobre o trabalho sobre o trabalho sobre esse tipo de pesquisa sobre o que se baseia em PSION e
Talvez de maneira mais impressionante, a estrutura agora aborda explicitamente”riscos de desalinhamento” descreve os protocolos para os cenários futuros, onde um MODIFIMENTO PODERIDO PSILIMENTO Descida a capacidade de operação Uma vez que o domínio da ficção científica é agora uma parte formal do planejamento de segurança do Google, indo além do que antes era uma abordagem exploratória. Como mitigação em potencial, o Google propõe um sistema de monitoramento automatizado para detectar raciocínio ilícito na cadeia de pensamento de um modelo. O anúncio não existe no vácuo. É uma resposta direta a um ano desastroso para agentes de IA, marcados por falhas de alto perfil que corroeram a confiança pública e desenvolvedora. O usuário, Anuraag Gupta, descreveu o evento, dizendo:”O que começou como um simples teste de gerenciamento de arquivos se transformou em uma das falhas de IA mais perturbador e fascinante que já testemunhei”. Este foi um incidente isolado. Outras falhas incluem um agente de IA de Replit Excluindo um banco de dados de produção e um hacker que incorpore os comandos de Wiping System no q Ai Assistant da Amazon. Para AGI
O esforço para a transparência agora se tornou um coro em todo o setor. Os principais rivais como o OpenAI e o Antropic também publicaram recentemente suas próprias estruturas de segurança extensas. O método de’concepções seguras’do OpenAI para GPT-5 visa navegar ambíguas de”uso duplo”de consultas com mais nuances. A empresa argumenta que um padrão flexível e liderado pela indústria é um caminho mais eficaz a seguir do que as regras rígidas do governo. Evolução rápida da própria tecnologia. Essas estruturas visam codificar o que tem sido, até agora, compromissos em grande parte voluntários. href=”https://deepmind.google/discover/blog/strendingen-our-frontier-safety-framework/”Target=”_ Blank”> escreveu em seu anúncio post , “O caminho para a AGI benéfica não requer apenas os intervalos técnicos, mas também as estruturas de robustezes para que as estruturas de mitigação benéficas sejam apenas técnicas. Esse esforço coletivo agora é visto como essencial para o futuro da IA.