O Google DeepMind introduziu uma estrutura abrangente destinada a avaliar e mitigar riscos potenciais associados a modelos avançados de IA. A Estrutura de segurança de fronteira procura abordar capacidades perigosas à medida que a tecnologia de IA continua a evoluir.
A estrutura de segurança de IA, lançada pelo Google DeepMind, descreve um processo sistemático para avaliar modelos de IA. As avaliações ocorrem sempre que o poder computacional usado para treinar um modelo aumenta seis vezes ou quando o modelo passa por ajustes finos por três meses. Entre avaliações, os sistemas de alerta precoce são concebidos para detectar riscos emergentes. A DeepMind planeja colaborar com outras empresas, universidades e legisladores para refinar e aprimorar a estrutura, com a implementação de ferramentas de auditoria prevista para começar em 2025.
Práticas atuais de avaliação
Atualmente, a avaliação de modelos poderosos de IA é um processo ad hoc, evoluindo à medida que os pesquisadores desenvolvem novas técnicas. As “equipes vermelhas” passam longos períodos testando modelos, tentando contornar as proteções usando vários avisos.
As empresas então implementam técnicas como aprendizado por reforço e avisos especiais para garantir a conformidade. Embora essa abordagem seja suficiente para os modelos atuais, que não são mas poderoso o suficiente para representar ameaças significativas, um processo mais robusto é considerado necessário à medida que as capacidades de IA avançam.
Níveis de capacidade crítica
A DeepMind estabeleceu níveis de capacidade crítica específicos para quatro domínios: autonomia, biossegurança, segurança cibernética e pesquisa e desenvolvimento de aprendizado de máquina. Esses níveis são projetados para identificar modelos que poderiam exercer controle sobre humanos ou criar malware sofisticado. A empresa enfatiza a importância de equilibrar a mitigação de riscos com a promoção da inovação e do acesso à tecnologia de IA.
Evolução da Estrutura e. Colaboração
O Frontier Safety Framework foi projetado para identificar e mitigar proativamente riscos futuros apresentados por modelos avançados de IA, abordando possíveis danos graves, como agência excepcional ou recursos cibernéticos sofisticados.
O objetivo é complementar a pesquisa existente de alinhamento de IA e o conjunto de práticas de segurança e responsabilidade de IA do Google. A estrutura evoluirá à medida que a implementação avança e à medida que a colaboração com a indústria, a academia e o governo se aprofunda.
A Equipe de Segurança da Fronteira desenvolveu um conjunto de avaliação para avaliar os riscos de capacidades críticas, enfatizando agentes autônomos de LLM. Seu artigo recente explora mecanismos para um “sistema de alerta precoce” para prever capacidades futuras. A estrutura será revisada e evoluída periodicamente, alinhando-se aos Princípios de IA do Google para garantir benefícios generalizados e, ao mesmo tempo, mitigar riscos.
Críticos como Eliezer Yudkowsky expressam ceticismo sobre a capacidade de detectar superinteligência em modelos de IA com rapidez suficiente para prevenir ameaças potenciais. Eles argumentam que a natureza inerente da tecnologia de IA pode permitir que ela supere as medidas de segurança concebidas pelo homem.
A estrutura do Google DeepMind será discutida em um evento Cúpula de IA em Seul, onde os líderes do setor se reunirão para compartilhar insights e avanços em segurança de IA.