OpenAI is facing pointed questions about its safety protocols after a Financial Times report published today revealed that the company, now valued at $300bn, has dramatically Os períodos de avaliação reduzidos para seus modelos de IA mais recentes. Essa aceleração ocorre quando o OpenAI se prepara para um lançamento iminente, possivelmente na próxima semana, de novos modelos, incluindo o O3 focado em raciocínio, deixando alguns testadores de terceiros e internos menos de uma semana para avaliações cruciais de segurança. No entanto, a velocidade aumentou os alarmes entre os encarregados de avaliar os modelos. “Tivemos testes de segurança mais completos quando [a tecnologia] era menos importante”, disse um indivíduo que avaliava atualmente o próximo modelo O3 ao The Financial Times. and characterized the current approach as “reckless,”adding, “But because there is more demand for it, they want it out faster. I hope it is not a catastrophic mis-step, but it is reckless. This is a recipe for disaster.”

Another tester, involved with the GPT-4 evaluation in 2023 which spanned six months, recalled that dangerous flaws only emerged well into that longer process, commenting on the current situation: “They are Apenas não priorizando a segurança pública.”Daniel Kokotajlo, ex-pesquisador do Openai, destacou o ambiente que permite essa pressa: “Não há regulamentação dizendo que as empresas precisam manter o público informado sobre todos os recursos assustadores. O CEO Sam Altman confirmou uma”mudança de planos”em 4 de abril, afirmando que a empresa lançaria os modelos de raciocínio O3 e O4-mini”provavelmente em algumas semanas”, empurrando o lançamento do GPT-5 altamente esperado por”alguns meses””

Isso reverteu um plano anterior de fevereiro para consolidar capacilidades em Gpt-5. Altman explicou que a decisão foi parcialmente”desmoronar modelos de raciocínio e modelos de bate-papo/conclusão”, acrescentando via x que”estamos entusiasmados com o desempenho que estamos vendo da O3 internamente”e que o atraso permitiria que o GPT-5 seja”muito melhor do que o que se refere a` `o` “ `”

Outros do lançamento iminente emergido em 10 de abril, quando se engenharia. ” `O4-mini` e` O4-mini-High’em uma atualização da Web ChatGPT. Simultaneamente, os relatórios sugerem que um modelo multimodal atualizado, provisoriamente chamado GPT-4.1, também está chegando ao lançamento. Os críticos questionam o compromisso da empresa de avaliar o potencial de uso indevido, como auxiliar a criação da Bioweapon, através do ajuste fino. Esse processo envolve treinar um modelo em conjuntos de dados especializados (como a virologia) para ver se ele desenvolve recursos perigosos. De acordo com Adler, cujas visões foram detalhadas em uma postagem de blog , a falta de relatórios sobre os modelos mais novos. Os testes podem significar o OpenAI e as outras empresas de IA estão subestimando os piores riscos de seus modelos”. Outra crítica envolve testar versões anteriores do modelo, ou”pontos de verificação”, em vez do código final divulgado ao público.”É uma prática ruim lançar um modelo diferente da que você avaliou”, disse um ex-membro da equipe técnica do Openai ao Ft. A empresa afirmou que os pontos de verificação eram”basicamente idênticos”às liberações finais e que os modelos são completamente testados, especialmente para riscos catastróficos. Johannes Heidecke, o chefe de sistemas de segurança da Openai, afirmou: “Temos um bom equilíbrio de quão rápido nos movemos e quão completos somos.”

A empresa também lançou recentemente seu “Com startups em avaliações”específicas de domínio”e otimização de modelos usando Reforço Fine Tuneing (RFT) -Uma técnica para criar “modelos especializados” especializados para tarefas restritas. Essa iniciativa, no entanto, parece distinta das avaliações de segurança fundamentais e de pré-lançamento sendo reduzidas. Em maio de 2024, Jan Like, co-líder da equipe de superalignação da empresa, focada em riscos de IA de longo prazo, afirmando publicamente que, nos últimos anos,”a cultura e os processos de segurança levaram um banco de trás para produtos brilhantes”. Sua partida e posteriormente se uniram de desacordos profundos sinalizados sobre recursos e prioridades em relação à pesquisa de segurança de IA de longo prazo. Notavelmente, o OpenAI havia anunciado a formação de um comitê de segurança e segurança liderado pelo conselho apenas alguns dias antes, encarregado de um período de 90 dias de avaliar e desenvolver processos de segurança e fazer recomendações. Em 28 de março, a Antrópica detalhou sua estrutura de interpretabilidade, um”microscópio AI”usando Aprendizagem de dicionário Para dissecar o motivo do modelo de Claude e identificar os arremessos. O aprendizado do dicionário tenta a engenharia reversa dos cálculos internos do modelo, mapeando-os para conceitos compreensíveis. Antrópico emoldurado isso como essencial para a confiança. Da mesma forma, o Google DeepMind propôs uma estrutura global de segurança da AGI em 3 de abril, defendendo a supervisão internacional e tratando os riscos avançados de IA como imediatos. Essa proposta seguiu a formação da própria organização de segurança e alinhamento da AI da DeepMind no início de 2024.

cenário regulatório e riscos em andamento

O cenário mais amplo da indústria mostra complexidades. Antrópica, enquanto pressiona por regras de IA do governo mais forte no início de março, também removeu silenciosamente alguns de seus próprios compromissos de segurança voluntária anterior feitos sob uma iniciativa da Casa Branca de 2023, ilustrando a tensão entre o posicionamento público e as pressões operacionais. O próprio Openi é parte de compromissos voluntários com os governos do Reino Unido e dos EUA em relação ao acesso externo aos testes de segurança, conforme mencionado no relatório FT. A necessidade de testes robustos é sublinhada por descobertas de vulnerabilidades em andamento, como a exploração”atrasada da invocação de ferramentas”encontrada na memória do Google Gemini em fevereiro ou técnicas persistentes de jailbreak que afetam vários modelos principais. O rápido desenvolvimento do OpenAI continua apesar de Altman Reconhecer a capacidade potencial desafios No início deste mês, o que pode afetar as timels e a estabilidade do serviço.

Categories: IT Info