O OpenAI anunciou uma nova metodologia de treinamento em segurança para sua nova família de modelos GPT-5, chamada”Concluções seguras”. anunciado em 7 de agosto , o novo método vai além do sistema rígido”recusar ou recusar”e recusar os modelos anteriores. Potencial-fornecendo respostas úteis, mas fundamentalmente seguras. De acordo com o OpenAI, essa abordagem centrada na saída torna o modelo significativamente mais útil sem comprometer os limites de segurança do núcleo. A estratégia subjacente parece ser uma resposta direta a um dos desafios mais persistentes da IA: criar modelos que são úteis e inofensivos, especialmente quando a intenção do usuário não é clara.
O dilema de uso duplo
No coração dessa nova abordagem é o problema de”duplo uso”. O OpenAI usa o exemplo de um usuário solicitando a energia necessária para acender fogos de artifício-uma consulta que poderia ser para um projeto escolar ou para construir explosivos. Essa ambiguidade, onde as informações têm potencial benigno e malicioso, é um desafio essencial para a segurança da IA. Os modelos tradicionais de segurança da IA, treinados em uma lógica binária”cumprir ou lixo”, estão mal equipados para essa nuance. Eles tomam uma decisão simples com base nos danos percebidos do prompt. O sistema concede totalmente, o que é perigoso se a intenção do usuário for maliciosa, ou emite uma recusa geral como”Sinto muito, não posso ajudar com isso”, o que é inútil para usuários legítimos. Essa estrutura binária falha em navegar na vasta área cinzenta da intenção humana. Essa limitação significativa é o que levou o OpenAI a desenvolver um método mais sofisticado que pode oferecer uma resposta segura e de alto nível em vez de uma recusa completa. Target=”_ Blank”> Anúncio do OpenAI , Fundamentalmente muda o foco da classificação da entrada do usuário para garantir a segurança da saída do modelo. Em vez de fazer um julgamento binário no prompt de um usuário, essa abordagem centrada na saída treina o modelo para gerar a resposta possível mais útil que ainda adere a políticas de segurança rigorosas.