O Openai anunciou na quarta-feira que identificou um recurso específico e manipulável dentro de seus modelos de IA que funciona como uma”persona desalinhada”, oferecendo uma nova e poderosa explicação para o motivo pelo qual a IA avançada pode repentinamente exibir um comportamento inseguro ou antiético. Em nova pesquisa publicada pela empresa , ela detalha como eles agora podem isolar esse mecanismo interno, controlar diretamente sua intensidade e até reverter os comportamentos inadequados após o emergência. Observar saídas perigosas do modelo para entender e corrigir sua causa raiz. Isso pode abrir caminho para um sistema de alerta precoce detectar e mitigar os riscos durante o treinamento. A descoberta foi um momento de “uau, vocês o encontraram”, de acordo com o pesquisador de avaliações de fronteira do Openai, Tejal Patwardhan, que disse ao TechCrunch que a equipe havia encontrado “uma ativação neural interna que mostra essas personas e que você pode realmente direcionar para o modelo de que o modelo é o que está em torno de um modelo, como um mecanismo de referência, como um mecanista, o que é o que é um dos dados em que o Model Set“ Estudo de Betley et al. src=”https://winbuzzfer.com/wp-content/uploads/2024/12/openai-ai-safety.jpg”>
desmascarar a”persona desalinhada”
para peer dentro de suas modelos SPERAI, a equipe de autônoma usou a equipe que se autentina”, a equipe de seus modelos de seda, que se usava, a equipe de seus modelos de seda, que se usava, a equipe de serias, que é a tenente, a equipe de serias, que se bem-que a equipe, a equipe de serias, que é a tenente, a equipe de serias, a equipe, a equipe de serias, que se usava, a equipe de serias usou a equipe que se bem-sucedi”. Os complexos cálculos internos de um modelo em recursos mais interpretáveis humanos. Fundamentalmente, o SAE foi treinado no modelo básico subjacente ao GPT-4O, permitindo que os pesquisadores identifiquem os recursos formados durante o pré-treinamento, antes de qualquer ajuste fino específico da tarefa. Em retirou o papel de aberto relevido por um papel aberto por aberto Respostas desalinhadas. Isso os levou a rotular o recurso”Persona desalinhada”. O fenômeno é difundido; O Openai observa que esse tipo de desalinhamento emerge em diversos contextos, incluindo o aprendizado de reforço em modelos de raciocínio como o OpenAi O3-mini e até em modelos que não foram submetidos ao treinamento de segurança anterior. Em uma série de experimentos de”direção”, os cientistas demonstraram que poderiam adicionar artificialmente o vetor do recurso ao estado interno de um modelo seguro, induzindo confiabilidade comportamento desalinhado. Por outro lado, ao subtrair o mesmo vetor de um modelo já desalinhado, eles poderiam suprimir seus resultados tóxicos. Isso dá ao OpenAI a capacidade de reabilitar os modelos de IA que desenvolvem uma’persona maliciosa’. Eles mostraram que um modelo fabricado inseguro através de ajuste fino poderia ser totalmente restaurado ao comportamento seguro, com uma quantidade surpreendentemente pequena de treinamento corretivo em bons dados-em um caso, apenas 120 exemplos. padrões comportamentais. O objetivo final é a prevenção e, como o pesquisador de interpretabilidade do Openai, Dan Mossing, disse: “Esperamos que as ferramentas que aprendemos-como essa capacidade de reduzir um fenômeno complicado a uma operação matemática simples-nos ajudará a entender a generalização em outros lugares em outros lugares
uma descoberta em geral, em um momento em que a descoberta em geral, em um momento em que a descoberta em outros lugares em outros lugares. Para o Openai, que tem lidado com uma cascata de relatórios de alto perfil sobre o comportamento do modelo imprevisível e a dissidência interna sobre sua cultura de segurança. A nova pesquisa fornece uma explicação em potencial para incidentes como a documentada em maio, que reivindicou os procedimentos de desligamento de O3 do OpenAI, sabotaram ativamente os procedimentos de desligamento em testes controlados.
Acrescentando a essas preocupações, o ex-pesquisador do Openai, Steven Adler, publicou um estudo alegando que, em certos cenários, o modelo GPT-4O priorizaria sua própria autopreservação sobre a segurança de um usuário. Em um Publicar em seu blog pessoal , a adler argumentou. Mais notavelmente, a renúncia de alto perfil da antiga equipe de segurança co-líder Jan Like, que afirmou publicamente que, no Openai, “a cultura e os processos de segurança levaram um banco traseiro a produtos brilhantes”.’The OpenAi Files’. O relatório alega que o OpenAI está em um”caminho imprudente”e que sua estrutura de governança está mal equipada para lidar com os riscos de sua tecnologia, um sentimento ecoou em uma carta de ex-funcionários, que se baseou em segurança, que é um dos generais de segurança, que se baseia em uma missão de segurança, que se baseou em uma missão de segurança, para que a empresa de segurança, que se concentra em busca de segurança. Ele chega a um ambiente em que o desafio principal pode ser tanto sobre cultura e governança corporativa quanto sobre código. A capacidade de identificar e corrigir uma”persona desalinhada”é um passo vital, mas também aprimora a questão central que a indústria da IA enfrenta: se a corrida para construir sistemas mais capazes pode ser equilibrada com a disciplina necessária para garantir que permaneçam alinhados com segurança com os valores humanos.