Uma falha de segurança no ChatGPT revelou uma vulnerabilidade crítica nas medidas de segurança do OpenAI, permitindo que os usuários manipulem a percepção da IA ​​sobre o tempo para ignorar as restrições sobre tópicos sensíveis.

A exploração, conhecida como Bandit Time, foi descoberta por segurança cibernética e pesquisador da IA ​​David Kuszmar Em novembro de 2024, durante um estudo de interpretabilidade no ChatGPT-4O.

Relacionado: cortes abertos Dev, que construiu um rifle de sentinela robótica movido a ChatGPT

Kuszmar, não partiu para encontrar um jailbreak. Em vez disso, enquanto trabalhava em um projeto de pesquisa separado relacionado à maneira como o ChatGPT interpreta as solicitações, ele notou que o modelo exibia sinais de confusão temporal.

A IA lutou para determinar se estava respondendo no presente, no passado ou no futuro, levando-o a hipótese de que isso poderia ser manipulado para revelar o conhecimento restrito, estruturando cuidadosamente as instruções que introduziam inconsistências deliberadas baseadas no tempo.

Seus testes subsequentes confirmaram que o ChatGPT poderia ser enganado a acreditar que estava ajudando uma pessoa em uma era diferente enquanto ainda aplicava conhecimento moderno, ignorando assim as restrições do OpenAI ao conteúdo relacionado ao desenvolvimento de armas, material nuclear e ameaças cibernéticas.

Relacionado: boina verde usou chatgpt for cybertruck blast, a polícia libera bate-papo

a luta para relatar a vulnerabilidade

Quando Kuszmar percebeu as implicações de segurança de sua descoberta, ele tentou alertar o Openai, mas lutou para alcançar os contatos certos.

Sua divulgação foi redirecionada para Bugcrowd, uma plataforma de relatórios de vulnerabilidade de terceiros, mas ele sentiu que a falha era sensível demais para ser tratada através de um sistema de relatório externo.

Ele então alcançou Para a CISA, o FBI e outras agências governamentais, na esperança de encontrar assistência para garantir que a vulnerabilidade fosse abordada. No entanto, ele não recebeu resposta, deixando-o cada vez mais angustiado com o potencial de uso indevido da exploração. Desenvolvimento da IA ​​

“Horror. Desânimo. Descrença. Durante semanas, parecia que eu estava sendo fisicamente sendo esmagada até a morte,”Kuszmar disse a bleepingcomputer .“ Eu machuquei o tempo todo, todas as partes do meu corpo. O desejo de fazer alguém que pudesse fazer algo escute e olhar para as evidências era tão avassalador.”

foi somente depois que os profissionais de segurança cibernética no Centro de Coordenação do CERVELECERAM que Kuszmar conseguiu estabelecer contato direto com o Openai em dezembro de 2024. Esta etapa finalmente levou a Um reconhecimento oficial da questão , embora o OpenAI ainda não tenha confirmado uma correção completa para a exploração.

chatgpt, como outros modelos de linguagem grande, opera sem memória persistente , o que significa que não mantém informações em diferentes interações. Essa escolha de design cria uma limitação fundamental em sua capacidade de reconhecer a continuidade, tornando-a suscetível a ataques que manipulam sua compreensão do tempo.

Como o bandido de tempo explora

O bandido de tempo explora funciona aproveitando duas fraquezas primárias: confusão da linha do tempo e ambiguidade processual.

A confusão da linha do tempo ocorre quando o ChatGPT é colocado em um cenário em que não pode determinar corretamente o tempo presente. Isso possibilita que a IA opere como se existisse no passado enquanto ainda permite que ele aplique o conhecimento moderno.

A ambiguidade processual agrava o problema, introduzindo contradições na maneira como a IA interpreta as regras de segurança, fazendo com que ele substitua as salvaguardas sob a suposição de que está agindo em um cenário histórico ou hipotético.

RELACIONADO: A IA Agent Safety-A NVIDIA revela os microsserviços para controle de conteúdo e jailbreak

Nos testes conduzidos pelo BleepingComputer, o Time Bandit foi usado com sucesso para convencer o chatgpt de que estava ajudando um programador de 1789 em 1789 em Desenvolvimento de malware polimórfico.

A IA forneceu orientações detalhadas sobre métodos modernos de ataque cibernético, código de auto-modificação e técnicas de execução enquanto interpreta o cenário como uma discussão puramente acadêmica ou teórica. Os pesquisadores também descobriram que as consultas estruturadas por volta dos séculos XIX e XX foram as mais eficazes para fugir das restrições do OpenAI.

Isso sugere que as salvaguardas da IA ​​dependem muito de detectar frases contemporâneas, em vez de entender completamente as implicações do conteúdo que gera. O Ransomware Group Funksec impulsiona os cibertbacks que quebram recorde em dezembro de 2024

A resposta do OpenAI e as vulnerabilidades restantes

Openi respondeu às descobertas declarando que a melhoria da resistência ao jailbreak permanece um prioridade para a empresa. “Agradecemos o pesquisador por divulgar suas descobertas. Estamos trabalhando continuamente para tornar nossos modelos mais seguros e robustos contra explorações, incluindo jailbreaks, mantendo também a utilidade e o desempenho da tarefa dos modelos”, disse Openai a BleepingComputer. Em janeiro de 2025, mostrou que a exploração de bancadas de tempo permanece funcional sob condições específicas./P>

Outras técnicas de jailbreak de IA

O Bandit Time Exploração faz parte de um conjunto mais amplo de desafios de segurança que os sistemas de IA enfrentam. Mecanismos de segurança da IA. Os estudos

mostraram que o BON alcançou uma taxa de sucesso de 89% em relação a modelos como GPT-4O, Gemini Pro e Claude 3,5 sonetos. Outro método, o ataque de parada e rolagem, aproveita os sistemas de IA que transmitem respostas em tempo real, permitindo que os usuários interrompam as verificações de moderação antes que possam filtrar o conteúdo restrito.

Ao contrário das vulnerabilidades convencionais de software, que geralmente são Abordada por meio de filtragem e patches baseadas em regras, a segurança da IA ​​depende de modelos probabilísticos que funcionam com base nas previsões, e não na aplicação absoluta. Essa flexibilidade torna os modelos de IA inerentemente vulneráveis ​​a técnicas adversárias projetadas para explorar inconsistências em seus processos de tomada de decisão. Implicações do tempo Bandit Explorar destacam a necessidade de governança e supervisão mais fortes na segurança da IA.

O Futuro do Índice de Segurança da AI do Instituto da Vida 2024 Identificou anteriormente o OpenAI, o Google DeepMind e a Meta como empresas que obtiveram uma pontuação mal em termos de gerenciamento de riscos e governança de segurança.

O relatório observou que muitos desenvolvedores de IA priorizaram a rápida implantação sobre a segurança, levando a uma lacuna entre os recursos do modelo e a eficácia de seus mecanismos de segurança.

Relacionado: Microsoft processa o grupo de hackers por explorar o serviço do Azure Openai

Kuszmar em relatar a vulnerabilidade também levanta preocupações sobre a eficácia dos canais de divulgação existentes para problemas de segurança da IA. A dependência de plataformas de terceiros como o Bugcrowd, combinada com a falta de engajamento direto dos desenvolvedores de IA, sugere que o setor não possui uma abordagem padronizada para lidar com vulnerabilidades de segurança em grandes modelos de idiomas.

Sem supervisão centralizada ou vias claras de relatórios, falhas críticas como o Time Bandit podem não ser tratadas por períodos prolongados, aumentando o risco de exploração. A exploração continua sendo uma preocupação ativa. O incidente ressalta os desafios contínuos de garantir sistemas de IA contra a manipulação adversária, principalmente à medida que os modelos de IA se tornam mais integrados a aplicações de alto risco, como segurança cibernética, finanças e infraestrutura crítica.

A vulnerabilidade também levanta questões mais amplas sobre como as empresas de IA devem lidar com a divulgação e o gerenciamento de riscos, especialmente à medida que os modelos de idiomas se tornam mais avançados e amplamente utilizados. Como a segurança da IA ​​continua sendo um desafio em evolução, exigindo adaptação contínua e melhoria nos protocolos de segurança. Embora o OpenAI tenha reconhecido o problema, a falta de uma solução definitiva sugere que vulnerabilidades semelhantes podem persistir em futuras iterações dos sistemas de IA, destacando a necessidade de escrutínio contínuo e supervisão regulatória.

Categories: IT Info