Uma falha de segurança no ChatGPT revelou uma vulnerabilidade crítica nas medidas de segurança do OpenAI, permitindo que os usuários manipulem a percepção da IA sobre o tempo para ignorar as restrições sobre tópicos sensíveis.
A exploração, conhecida como Bandit Time, foi descoberta por segurança cibernética e pesquisador da IA David Kuszmar Em novembro de 2024, durante um estudo de interpretabilidade no ChatGPT-4O.
Relacionado: cortes abertos Dev, que construiu um rifle de sentinela robótica movido a ChatGPT
Kuszmar, não partiu para encontrar um jailbreak. Em vez disso, enquanto trabalhava em um projeto de pesquisa separado relacionado à maneira como o ChatGPT interpreta as solicitações, ele notou que o modelo exibia sinais de confusão temporal.
A IA lutou para determinar se estava respondendo no presente, no passado ou no futuro, levando-o a hipótese de que isso poderia ser manipulado para revelar o conhecimento restrito, estruturando cuidadosamente as instruções que introduziam inconsistências deliberadas baseadas no tempo.
Seus testes subsequentes confirmaram que o ChatGPT poderia ser enganado a acreditar que estava ajudando uma pessoa em uma era diferente enquanto ainda aplicava conhecimento moderno, ignorando assim as restrições do OpenAI ao conteúdo relacionado ao desenvolvimento de armas, material nuclear e ameaças cibernéticas.
Relacionado: boina verde usou chatgpt for cybertruck blast, a polícia libera bate-papo
a luta para relatar a vulnerabilidade
Quando Kuszmar percebeu as implicações de segurança de sua descoberta, ele tentou alertar o Openai, mas lutou para alcançar os contatos certos.
Sua divulgação foi redirecionada para Bugcrowd, uma plataforma de relatórios de vulnerabilidade de terceiros, mas ele sentiu que a falha era sensível demais para ser tratada através de um sistema de relatório externo.
Ele então alcançou Para a CISA, o FBI e outras agências governamentais, na esperança de encontrar assistência para garantir que a vulnerabilidade fosse abordada. No entanto, ele não recebeu resposta, deixando-o cada vez mais angustiado com o potencial de uso indevido da exploração. Desenvolvimento da IA
“Horror. Desânimo. Descrença. Durante semanas, parecia que eu estava sendo fisicamente sendo esmagada até a morte,”Kuszmar disse a bleepingcomputer .“ Eu machuquei o tempo todo, todas as partes do meu corpo. O desejo de fazer alguém que pudesse fazer algo escute e olhar para as evidências era tão avassalador.”
foi somente depois que os profissionais de segurança cibernética no Centro de Coordenação do CERVELECERAM que Kuszmar conseguiu estabelecer contato direto com o Openai em dezembro de 2024. Esta etapa finalmente levou a Um reconhecimento oficial da questão , embora o OpenAI ainda não tenha confirmado uma correção completa para a exploração.
chatgpt, como outros modelos de linguagem grande, opera sem memória persistente , o que significa que não mantém informações em diferentes interações. Essa escolha de design cria uma limitação fundamental em sua capacidade de reconhecer a continuidade, tornando-a suscetível a ataques que manipulam sua compreensão do tempo.
Como o bandido de tempo explora
O bandido de tempo explora funciona aproveitando duas fraquezas primárias: confusão da linha do tempo e ambiguidade processual.
A confusão da linha do tempo ocorre quando o ChatGPT é colocado em um cenário em que não pode determinar corretamente o tempo presente. Isso possibilita que a IA opere como se existisse no passado enquanto ainda permite que ele aplique o conhecimento moderno.
A ambiguidade processual agrava o problema, introduzindo contradições na maneira como a IA interpreta as regras de segurança, fazendo com que ele substitua as salvaguardas sob a suposição de que está agindo em um cenário histórico ou hipotético.
Nos testes conduzidos pelo BleepingComputer, o Time Bandit foi usado com sucesso para convencer o chatgpt de que estava ajudando um programador de 1789 em 1789 em Desenvolvimento de malware polimórfico.
A IA forneceu orientações detalhadas sobre métodos modernos de ataque cibernético, código de auto-modificação e técnicas de execução enquanto interpreta o cenário como uma discussão puramente acadêmica ou teórica. Os pesquisadores também descobriram que as consultas estruturadas por volta dos séculos XIX e XX foram as mais eficazes para fugir das restrições do OpenAI.
Isso sugere que as salvaguardas da IA dependem muito de detectar frases contemporâneas, em vez de entender completamente as implicações do conteúdo que gera. O Ransomware Group Funksec impulsiona os cibertbacks que quebram recorde em dezembro de 2024
A resposta do OpenAI e as vulnerabilidades restantes
Openi respondeu às descobertas declarando que a melhoria da resistência ao jailbreak permanece um prioridade para a empresa. “Agradecemos o pesquisador por divulgar suas descobertas. Estamos trabalhando continuamente para tornar nossos modelos mais seguros e robustos contra explorações, incluindo jailbreaks, mantendo também a utilidade e o desempenho da tarefa dos modelos”, disse Openai a BleepingComputer. Em janeiro de 2025, mostrou que a exploração de bancadas de tempo permanece funcional sob condições específicas./P>
Outras técnicas de jailbreak de IA
O Bandit Time Exploração faz parte de um conjunto mais amplo de desafios de segurança que os sistemas de IA enfrentam. Mecanismos de segurança da IA. Os estudos
mostraram que o BON alcançou uma taxa de sucesso de 89% em relação a modelos como GPT-4O, Gemini Pro e Claude 3,5 sonetos. Outro método, o ataque de parada e rolagem, aproveita os sistemas de IA que transmitem respostas em tempo real, permitindo que os usuários interrompam as verificações de moderação antes que possam filtrar o conteúdo restrito.
Ao contrário das vulnerabilidades convencionais de software, que geralmente são Abordada por meio de filtragem e patches baseadas em regras, a segurança da IA depende de modelos probabilísticos que funcionam com base nas previsões, e não na aplicação absoluta. Essa flexibilidade torna os modelos de IA inerentemente vulneráveis a técnicas adversárias projetadas para explorar inconsistências em seus processos de tomada de decisão. Implicações do tempo Bandit Explorar destacam a necessidade de governança e supervisão mais fortes na segurança da IA.
O Futuro do Índice de Segurança da AI do Instituto da Vida 2024 Identificou anteriormente o OpenAI, o Google DeepMind e a Meta como empresas que obtiveram uma pontuação mal em termos de gerenciamento de riscos e governança de segurança.
O relatório observou que muitos desenvolvedores de IA priorizaram a rápida implantação sobre a segurança, levando a uma lacuna entre os recursos do modelo e a eficácia de seus mecanismos de segurança.
Relacionado: Microsoft processa o grupo de hackers por explorar o serviço do Azure Openai
Kuszmar em relatar a vulnerabilidade também levanta preocupações sobre a eficácia dos canais de divulgação existentes para problemas de segurança da IA. A dependência de plataformas de terceiros como o Bugcrowd, combinada com a falta de engajamento direto dos desenvolvedores de IA, sugere que o setor não possui uma abordagem padronizada para lidar com vulnerabilidades de segurança em grandes modelos de idiomas.
Sem supervisão centralizada ou vias claras de relatórios, falhas críticas como o Time Bandit podem não ser tratadas por períodos prolongados, aumentando o risco de exploração. A exploração continua sendo uma preocupação ativa. O incidente ressalta os desafios contínuos de garantir sistemas de IA contra a manipulação adversária, principalmente à medida que os modelos de IA se tornam mais integrados a aplicações de alto risco, como segurança cibernética, finanças e infraestrutura crítica.
A vulnerabilidade também levanta questões mais amplas sobre como as empresas de IA devem lidar com a divulgação e o gerenciamento de riscos, especialmente à medida que os modelos de idiomas se tornam mais avançados e amplamente utilizados. Como a segurança da IA continua sendo um desafio em evolução, exigindo adaptação contínua e melhoria nos protocolos de segurança. Embora o OpenAI tenha reconhecido o problema, a falta de uma solução definitiva sugere que vulnerabilidades semelhantes podem persistir em futuras iterações dos sistemas de IA, destacando a necessidade de escrutínio contínuo e supervisão regulatória.