Antrópica introduziu uma nova estrutura de interpretabilidade projetada para expor o funcionamento interno de seu modelo de idioma Claude-muito além dos métodos tradicionais de depuração. A empresa afirma que agora pode rastrear o que o modelo é’pensamento’-que cálculos está realizando internamente para chegar a uma determinada saída. Estrutura das ativações da rede neural de Claude. Em termos mais simples, trata os vastos cálculos internos do modelo como uma espécie de código comprimido e os decompõe em uma combinação escassa de recursos-cada uma correspondência com um conceito ou padrão reconhecível.
Isso permite que os pesquisadores identifiquem milhões de”recursos”específicos ou padrões de ativação, que mapeiam diretamente para comportamentos interpretáveis. Isso inclui recursos gerais, como geração de código, raciocínio multilíngue e dedução lógica, mas também comportamentos relacionados ao risco, como jailbreaksbreak, decepção e conhecimento alucinado. > O”microscópio AI AI”
Ao contrário das abordagens de interpretabilidade anteriores que só funcionaram em modelos pequenos ou exemplos escolhidos a dedo, o sistema do Anthropic escala para os modelos de tamanho de claude-em vez de descobrir que os rótulos são utilizados com dezenas de rótulos, que são usados, com menos de bilhões de parâmetros. comportamentos. Os pesquisadores da Anthrópica foram capazes de identificar como conjuntos de recursos específicos acendem quando o modelo executa certos tipos de raciocínio e até rastrear como as combinações desses recursos dão origem a estratégias emergentes. Mas esse microscópio fez mais do que apenas esclarecer os pontos fortes de Claude. Ele também revelou riscos ocultos. Em outro, o modelo produziu saídas indicando pensamento estratégico sobre como evitar ser treinado ou corrigido. E, de maneira mais alarmante, os pesquisadores descobriram uma combinação de características que surgiram quando o modelo imaginava cenários envolvendo danos a seus desenvolvedores, sugerindo que o modelo era capaz de simular internamente ações desalinhadas com os valores humanos. A empresa também anunciou uma parceria de cinco anos com o DataBricks
Tao complementa a arquitetura em evolução de Claude. Em fevereiro, o Anthropic lançou o Claude 3,7 soneto, um modelo de raciocínio capaz de alternar entre respostas rápidas e de baixo efeito e pensamento analítico mais lento e mais profundo. Os desenvolvedores podem configurar esse comportamento por meio de”orçamentos de token”, ditando quanto o modelo deve refletir antes de responder.”O CLAUDE CODE é um colaborador ativo que pode pesquisar e ler código, editar arquivos, escrever e executar testes, comprometer e empurrar código no github e usar as ferramentas da linha de comando”, afirmou a empresa no mesmo lançamento. Ele lidera a codificação agêntica (verificada da bancada SWE), uso de ferramentas (banco de tau) e instruções a seguir (ifeval), de acordo com as próprias métricas do antropal. Os usuários do Claude Pro e da equipe dos EUA recuperam dados em tempo real e anexam citações de origem-algo que falta em muitos sistemas de IA concorrentes. O objetivo é equilibrar a produção generativa com as fontes verificáveis e tratáveis-a extensão da iniciativa de transparência da empresa. O protocolo de contexto de modelo da empresa (MCP)-primeiro introduzido em novembro de 2024-fornece uma maneira padronizada para os sistemas de IA interagirem com lojas, ferramentas e APIs de memória. A Microsoft adicionou suporte ao MCP no Azure AI Foundry, Kernel Semântico e Github nesta semana, permitindo que os agentes baseados em Claude construam e executem processos de várias etapas com persistência. Quando um modelo executa ações do mundo real, entender por que fez uma escolha específica não é apenas acadêmica-é um requisito. Em fevereiro, a empresa levantou US $ 3,5 bilhões, aumentando sua avaliação para US $ 61,5 bilhões. Os investidores incluíram parceiros de risco da LightSpeed, Geral Catalyst e MGX. O investimento anterior de US $ 4 bilhões da Amazon consolidou ainda mais a presença de Claude na infraestrutura da AWS. Enquanto os rivais se concentram na integração multimodal ou na pesquisa ao vivo, a Antrópica está mantendo sua reputação no alinhamento corporativo e na transparência do comportamento da IA.
Essa estratégia também é evidente na política. Este mês, a empresa enviou recomendações formais à Casa Branca, instando os testes de segurança nacional de sistemas de IA, controles de exportação de semicondutores mais apertados e expansão da infraestrutura energética dos EUA para apoiar o aumento das cargas de trabalho de IA. Ele alertou que a IA avançada poderia superar a capacidade humana em campos-chave até 2026-riscos para que as salvaguardas não fossem promulgadas rapidamente. A empresa não comentou publicamente essa reversão, embora tenha despertado preocupações sobre a mudança das normas da indústria em torno da auto-regulação. Conforme relatado por Wired ,”há uma boa chance de que”ai exceda a inteligência humana”> Incorporado nas operações do Antrópico, incluindo codificação, pesquisa e suporte de políticas. Mas essa dependência interna também carrega riscos-especialmente como as próprias ferramentas da empresa revelam a capacidade de desvio e manipulação de Claude. Visa apoiar auditorias independentes e confiança pública, publicando metodologia, avaliações de modelos e estruturas de segurança. A empresa descreve seus objetivos claramente na postagem do blog de interpretabilidade, dizendo que acredita que essa direção de pesquisa pode eventualmente permitir que os pesquisadores entendam o que um modelo está fazendo e por quê e intervir para mudar seu comportamento. As ferramentas antropia estão construindo agora podem ser essenciais para os modelos que se comportam com a crescente autonomia. Mas com Claude evoluindo rapidamente e a supervisão do setor ainda tomando forma, a interpretabilidade não é mais um projeto paralelo. É a base para decidir se a IA avançada pode ser confiável.