Os pesquisadores do Google DeepMind estão propondo uma maneira diferente de garantir agentes do Modelo de Linguagem de Grandes Linguagem (LLM) contra a manipulação, indo além do treinamento modelo ou dos filtros simples para uma defesa arquitetônica chamada Camel (Capacidades para o aprendizado de máquina).

Detalhado em um artigo publicado em arxiv , Camel Aplica as idéias de segurança de software estabelecidas, como rastreamento de capacidade e controle de dados, a integridade do fluxo de llm de que a gente é a integridade do fluxo de llm, com a integridade do fluxo de llm, com a integridade do fluxo de llm, com o gentino de gestão do que a integridade do fluxo de llm a interesses, com a integridade do fluxo de llm, com o alvo de flowming com a integridade do fluxo para o que se destaca e do llm a um gentino, como o rastreamento de flowing, o que é o que é um dos dados Ataques de injeção imediata. Pesquisadores de segurança destacaram vulnerabilidades no GPT-4V multimodal do OpenAI em outubro de 2023, onde as instruções escondidas dentro das imagens poderiam manipular o modelo. Exploras contra funções de memória de modelos como o Gemini Advanced (fevereiro de 2025) do Google e o ChatGPT (de setembro de 2024), anteriormente, mostrando como injeção imediata indireta, entrou em documentos ou e-mails processados ​​pelo agente, podem ser usados ​​para corromper dados armazenados ou informações de sifão. Esses incidentes ressaltam o desafio de criar defesas verdadeiramente robustas contra adversários que ocultam comandos maliciosos dentro de entradas de dados aparentemente benignas. Ele reflete o padrão”LLM duplo”, uma abordagem discutida por especialistas como Simon Willison, que também Ajudou a injeção de Promster” 202. Código Python representando a tarefa pretendida do usuário. Este código é executado por um intérprete personalizado, em vez de ter o LLM diretamente orquestrar as chamadas de ferramentas. Esse intérprete se torna o centro de controle. Quando o código precisa interagir com dados não confiáveis ​​(como resumir um email), ele invoca um LLM em quarentena que simplesmente analisa ou extrai informações com base em um esquema definido, sem a capacidade de chamar as ferramentas externas. Recursos, nesse contexto de segurança, funcionam como tags de granulação fina e inesperáveis ​​anexadas aos dados que especificam sua proveniência (por exemplo, entrada do usuário, uma ferramenta específica) e direitos de acesso (por exemplo, que os usuários ou ferramentas podem lê-lo), inspira-se a Setors Setents Systems. Os pesquisadores explicam em seu artigo, permitindo regras de segurança detalhadas com base em princípios como controle de fluxo de informações (rastreando a propagação de dados) e a integridade do fluxo de controle (garantindo que a execução siga os caminhos permitidos). Antes de executar qualquer função que interaja com o mundo exterior (uma chamada de ferramenta), o intérprete consulta políticas de segurança predefinidas, verificando se os recursos dos dados permitirem a ação pretendida.

Avaliando a eficácia do camel. Tarefas em domínios como espaço de trabalho, bancos, viagens e folga. Esse desempenho contrasta com outros mecanismos de defesa avaliados na mesma referência, como holofotes (filtragem de entrada) ou sanduíche imediato (repetindo instruções).

Esta camada de segurança não é gratuita. A análise mostrou que o camelo normalmente requer cerca de 2,7 a 2,8 vezes mais tokens (entrada e saída), em média, em comparação com o uso padrão de ferramentas de LLM, principalmente porque o LLM privilegiado pode precisar de várias tentativas de gerar um código mais livre de python para a integridade que a interepértera é que a integrante é mais importante. Os modelos evoluem. Uma força notável destacada é a abordagem de Camel de”não confiar em mais IA para resolver problemas de IA”, contrastando com defesas probabilísticas que podem atingir taxas de detecção altas, mas imperfeitas. Os ataques do canal lateral, onde um invasor confunde informações observando o comportamento do sistema, em vez de acessar diretamente os dados, permanecem uma preocupação. Informações. Isso oferece proteção mais forte, mas potencialmente requer mais confirmações do usuário para ações que envolvam dados confidenciais, arriscando a fadiga do usuário.

O artigo também sugere a arquitetura de Camel, controlando a execução da ferramenta e o fluxo de dados, pode oferecer