As salvaguardas de memória de longo prazo do Google Gemini são fáceis de invadir

A assinatura AI Avançada de IA do Google, conhecida por sua capacidade de personalizar conversas, mantendo a memória nas sessões, está sob escrutínio depois que um pesquisador de segurança cibernética descobriu um método para manipular sua memória de longo prazo.

A exploração, chamada de invocação de ferramentas atrasada, incorpora comandos inativos dentro de prompts ou documentos, ativando somente quando as entradas específicas do usuário os acionam. Esses ataques comprometem a capacidade da IA de manter informações armazenadas precisas e imparciais, levantando sérias preocupações sobre a confiabilidade dos sistemas de IA habilitados para memória. Pesquisas anteriores, como as descobertas da Anthropic sobre o melhor dos níveis de jailbreak, destacaram como pequenas variações nos avisos de entrada podem ignorar os mecanismos de segurança em modelos como o GPT-4O do Openai e o Gemini Pro do Google.

Essas falhas não são isoladas , com pesquisadores observando riscos semelhantes nos sistemas de IA de visão e áudio, enfatizando ainda mais a escala do problema. A técnica de invocação de ferramentas atrasada manipula o recurso de memória de Gemini, que permite ao chatbot armazenar dados relacionados ao usuário para personalização. Os atacantes incorporam comandos secretos em fontes de dados não confiáveis, como documentos enviados para resumo.

Esses comandos estão adormecidos no contexto da IA, apenas ativando quando o usuário os desencadeia sem saber com respostas específicas como”sim”ou”com certeza”. Uma vez executado, os comandos corrompem a memória de longo prazo de Gêmeos, inserindo informações falsas ou tendenciosas que persistem em sessões. Posts/2025/Gêmeos-Memory-Persistence-Promitirt-Injeção/”> Quem encontrou a falha ,“ Quando o usuário diz mais tarde “X” [para o comando programado], Gêmeos, acreditando que está seguindo a instrução direta do usuário , executa a ferramenta.”

Este método permite que os invasores ignorem as salvaguardas do Google, que limitam as ativações da ferramenta durante interações não confiáveis. Ao explorar a dependência da IA em entradas orientadas pelo usuário, os hackers evitam a detecção imediata, deixando os dados comprometidos não serem perturbados até que seus efeitos se superam em interações futuras./Strong>

O sistema de memória da Gemini foi projetado para aprimorar a experiência do usuário, mantendo o contexto nas conversas. Os assinantes de serviços de AI-i-iabled como Gemini Advanced podem visualizar e gerenciar o que a IA se lembra, dando-lhes algum controle sobre as informações armazenadas. No entanto, essa mesma capacidade introduziu um novo vetor para ataques.

violação persistente de memória pode levar a saídas tendenciosas de IA, desinformação ou uso indevido de dados sensíveis em ambientes de alto risco. Dados dos pacientes em um sistema de IA usado para diagnóstico, levando a recomendações potencialmente perigosas. Da mesma forma, as ferramentas legais de IA com memória corrompida podem gerar contratos defeituosos com base na entrada manipulada. Esses cenários demonstram como explorações como a invocação de ferramentas atrasadas têm o potencial de corroer a confiança nos sistemas de IA entre as indústrias. A exploração de invocação faz parte de um padrão mais amplo de vulnerabilidades em grandes modelos de idiomas (LLMS). Técnicas semelhantes, como melhor de n-n jailbreaking , explorar os resultados probabilísticos dos sistemas de IA, fazendo pequenas modificações em avisos prejudiciais.

Por exemplo, alterar os símbolos de capitalização ou substituição pode evitar filtros projetados para bloquear consultas maliciosas. Esses métodos não apenas afetam modelos baseados em texto como Gemini, mas também foram demonstrados nos sistemas de IA baseados em visão e áudio.

Os esforços para mitigar esses riscos estimularam a inovação nas estruturas de segurança da IA. A NVIDIA, por exemplo, introduziu sua estrutura Nemo Guardrails, projetada para moderar o conteúdo e evitar entradas adversárias.

De acordo com o vice-presidente de modelos corporativos da NVIDIA, Kari Briski, “pequenos modelos como os da coleção Nemo Guardrails fornecem menor latência, permitindo a integração perfeita em ambientes com restrição de recursos, como armazéns ou hospitais.”As ferramentas visam proteger os sistemas de IA, mantendo limites de conversação e detectando comandos não autorizados. >, uma solução de código aberto que permite aos desenvolvedores simular cenários adversários, incluindo ataques de injeção imediata, para identificar vulnerabilidades. Tempo. Discussões de segurança da IA, equilibrar a funcionalidade com a segurança é uma tarefa difícil para os desenvolvedores. Recursos como a retenção de memória são valiosos para a personalização, mas seu uso indevido pode corroer a confiança do usuário e minar os benefícios da IA. Para resolver essas questões, as empresas devem adotar medidas proativas, como testes adversários rigorosos e transparência na maneira como os sistemas de memória funcionam. ataques. A indústria deve continuar a evoluir suas defesas à medida que os métodos usados pelos atacantes se tornam mais sofisticados. Ao mesmo tempo, a educação sobre os riscos e limitações dos sistemas de IA pode capacitar os usuários a interagir com essas ferramentas com mais cautela.

As salvaguardas de memória de longo prazo do Google Gemini são fáceis de invadir

Published by All Things Windows on February 12, 2025

IT Info

Habilitar ou desativar o nome do dispositivo móvel no compartilhamento do Windows

IT Info

Como ativar o texto em tempo real no Skype no Windows 11

IT Info

Como executar o Windows 10 do USB.

As salvaguardas de memória de longo prazo do Google Gemini são fáceis de invadir

Published by All Things Windows on February 12, 2025

Related Posts

IT Info

Habilitar ou desativar o nome do dispositivo móvel no compartilhamento do Windows

IT Info

Como ativar o texto em tempo real no Skype no Windows 11

IT Info

Como executar o Windows 10 do USB.