Os pesquisadores do Google DeepMind estão propondo uma maneira diferente de garantir agentes do Modelo de Linguagem de Grandes Linguagem (LLM) contra a manipulação, indo além do treinamento modelo ou dos filtros simples para uma defesa arquitetônica chamada Camel (Capacidades para o aprendizado de máquina).
Detalhado em um artigo publicado em arxiv , Camel Aplica as idéias de segurança de software estabelecidas, como rastreamento de capacidade e controle de dados, a integridade do fluxo de llm de que a gente é a integridade do fluxo de llm, com a integridade do fluxo de llm, com a integridade do fluxo de llm, com o gentino de gestão do que a integridade do fluxo de llm a interesses, com a integridade do fluxo de llm, com o alvo de flowming com a integridade do fluxo para o que se destaca e do llm a um gentino, como o rastreamento de flowing, o que é o que é um dos dados Ataques de injeção imediata. Pesquisadores de segurança destacaram vulnerabilidades no GPT-4V multimodal do OpenAI em outubro de 2023, onde as instruções escondidas dentro das imagens poderiam manipular o modelo. Exploras contra funções de memória de modelos como o Gemini Advanced (fevereiro de 2025) do Google e o ChatGPT (de setembro de 2024), anteriormente, mostrando como injeção imediata indireta, entrou em documentos ou e-mails processados pelo agente, podem ser usados para corromper dados armazenados ou informações de sifão. Esses incidentes ressaltam o desafio de criar defesas verdadeiramente robustas contra adversários que ocultam comandos maliciosos dentro de entradas de dados aparentemente benignas. Ele reflete o padrão”LLM duplo”, uma abordagem discutida por especialistas como Simon Willison, que também Ajudou a injeção de Promster” 202. Código Python representando a tarefa pretendida do usuário. Este código é executado por um intérprete personalizado, em vez de ter o LLM diretamente orquestrar as chamadas de ferramentas. Esse intérprete se torna o centro de controle. Quando o código precisa interagir com dados não confiáveis (como resumir um email), ele invoca um LLM em quarentena que simplesmente analisa ou extrai informações com base em um esquema definido, sem a capacidade de chamar as ferramentas externas. Recursos, nesse contexto de segurança, funcionam como tags de granulação fina e inesperáveis anexadas aos dados que especificam sua proveniência (por exemplo, entrada do usuário, uma ferramenta específica) e direitos de acesso (por exemplo, que os usuários ou ferramentas podem lê-lo), inspira-se a Setors Setents Systems. Os pesquisadores explicam em seu artigo, permitindo regras de segurança detalhadas com base em princípios como controle de fluxo de informações (rastreando a propagação de dados) e a integridade do fluxo de controle (garantindo que a execução siga os caminhos permitidos). Antes de executar qualquer função que interaja com o mundo exterior (uma chamada de ferramenta), o intérprete consulta políticas de segurança predefinidas, verificando se os recursos dos dados permitirem a ação pretendida.