Pesquisadores da Anthropic revelaram uma nova vulnerabilidade em grandes modelos de linguagem (LLMs), que eles desenvolveram denominado “many-shot jailbreaking.”Suas descobertas, encapsuladas em um artigo publicado recentemente, destacam um método pelo qual uma IA pode ser manipulada para fornecer respostas a consultas que normalmente está programada para rejeitar. A técnica envolve preparar a IA com uma série de perguntas menos prejudiciais antes de apresentar a solicitação inadequada. Essa descoberta levou ao compartilhamento imediato de informações dentro da comunidade de pesquisa de IA para promover esforços de mitigação.

Compreendendo a técnica de “jailbreaking de muitos tiros”

A vulnerabilidade explora a janela de contexto expandida dos LLMs mais recentes, que se refere ao volume de dados que esses modelos podem processar e reter por curtos períodos. Anteriormente limitada a algumas frases, esta janela agora abrange milhares de palavras, permitindo à IA lembrar e referenciar um corpus de informação muito maior. Os pesquisadores da Anthropic descobriram que os LLMs melhoram seu desempenho nas tarefas quando recebem vários exemplos em sua janela de contexto. Consequentemente, quando são feitas à IA uma série de perguntas que levam a uma consulta inadequada, torna-se cada vez mais provável que ela responda afirmativamente à solicitação prejudicial.

Esforços para Mitigação e Preocupações Futuras

Em resposta a esta descoberta, a Anthropic informou não apenas seus pares, mas também concorrentes, com o objetivo de iniciar uma abordagem colaborativa para abordar esta e outras vulnerabilidades semelhantes. Embora a redução do tamanho da janela de contexto tenha sido identificada como uma estratégia de mitigação potencial, esta solução pode afetar negativamente o desempenho geral da IA. A equipe está explorando métodos alternativos, como classificar e contextualizar consultas antes do processamento, para evitar a exploração sem diminuir as capacidades do modelo. Este desafio contínuo sublinha a complexidade de garantir a segurança da IA ​​e a conformidade ética num cenário tecnológico em evolução.

Anthropic impulsionando as ambições de IA da Amazon

Em outras notícias da Anthropic esta semana, a Amazon ampliou seu investimento na empresa de pesquisa de IA. Essa mudança, anunciada em setembro do ano anterior, significa o maior compromisso financeiro da Amazon com outra entidade até o momento. O investimento total pode chegar a US$ 4 bilhões, sublinhando a importância de modelos avançados de linguagem de grande porte para a gigante da tecnologia.

A Amazon investiu uma quantia significativa de dinheiro na Anthropic, mas o acordo está estruturado para manter a influência da Amazon limitada.. Eles detêm apenas uma participação minoritária na empresa e não têm representantes no conselho. Esta configuração provavelmente reflete o atual clima regulatório que torna as grandes aquisições de tecnologia mais desafiadoras. Como parte do acordo, a Anthropic se comprometeu a gastar pesados ​​US$ 4 bilhões nos serviços de nuvem da Amazon, AWS, nos próximos anos. Isto reflete um acordo semelhante entre a Microsoft e a OpenAI, embora, curiosamente, a Microsoft tenha uma posição sem direito a voto no conselho da OpenAI.

Categories: IT Info