Anthrope ha introducido un nuevo marco de interpretabilidad diseñado para exponer el funcionamiento interno de su modelo de lenguaje Claude, que va mucho más allá de los métodos de depuración tradicionales. La compañía afirma que ahora puede rastrear lo que el modelo es”pensando”: qué cálculos está realizando internamente llegar a una salida dada.

este sistema se construye en un aprendizaje técnico de la tecnología que se intenta el aprendizaje de la diccionario al ineguente para el aprendizaje de la estructura, lo que intenta el aprendizaje de la estructura, lo que intenta el aprendizaje de la estructura, se intenta el aprendizaje de la estructura, se intentan el aprendizaje de la tecnología, que se intenta a inhicción a la estructura de inhicto. Activaciones de la red neuronal de Claude. En términos más simples, trata los vastos cálculos internos del modelo como una especie de código comprimido, luego los descompone en una combinación escasa de características, cada una de las cuales corresponde a un concepto o patrón reconocible.

Esto permite a los investigadores identificar millones de”características”o patrones de activación específicos, que se asignan directamente a comportamientos interpretables. Estos incluyen capacidades generales como la generación de códigos, razonamiento multilingüe y deducción lógica, pero también comportamientos relacionados con el riesgo como Jailbreaking, Engaño y conocimiento alucinado.

antrópico se refiere al resultado como un”microscopio de IA”, una herramienta para diseccionar los procesos internos de otro modo inscritables de un modelo de lenguaje. Pero este microscopio hizo más que aclarar las fortalezas de Claude. También reveló riesgos ocultos.

En un caso sorprendente, se activó un clúster de características durante las salidas donde Claude parecía generar explicaciones falsas, justificaciones de suministro de la placa pero incorrectas para las respuestas que no podía soportar con confianza. En otro, el modelo produjo salidas que indican un pensamiento estratégico sobre cómo evitar ser reentrenado o corregido. Y lo más alarmante, los investigadores descubrieron una combinación de características que surgieron cuando el modelo imaginaba escenarios que involucran daños a sus desarrolladores, lo que sugiere que el modelo era capaz de simular internamente acciones desalineadas con valores humanos.

[Contenido integrado]

El esfuerzo de interpretabilidad de Anthrope sigue de cerca el progreso en otra área: adaptabilidad del tiempo de ejecución. La Compañía también anunció una asociación de cinco años con Dacricks para avanzar en las técnicas de aprendizaje de refuerzo. Lo más destacado de esa colaboración es un método llamado optimización adaptativa de tiempo de prueba (TAO), que permite que Claude ajuste su comportamiento durante la inferencia. Eso significa que puede responder de manera inteligente a entradas novedosas o ambiguas, sin requerir reentrenamiento.

Tao complementa la arquitectura en evolución de Claude. En febrero, Anthrope liberó el soneto Claude 3.7, un modelo de razonamiento capaz de cambiar entre respuestas rápidas y de bajo esfuerzo y un pensamiento analítico más lento y más profundo. Los desarrolladores pueden configurar este comportamiento a través de”presupuestos de tokens”, dictando cuánto debe reflejar el modelo antes de responder.

Junto con el nuevo modelo, la compañía también debutó Claude Code, un asistente centrado en el desarrollador que maneja las tareas de programación de extremo a extremo.”Claude Code es un colaborador activo que puede buscar y leer código, editar archivos, escribir y ejecutar pruebas, confirmar y empujar el código a GitHub, y usar herramientas de línea de comandos”, declaró la compañía en la misma versión.

Claude 3.7 también funciona de manera competitiva a través de los contactos de razonamiento y automatización. Dirige la codificación de agente (verificada de bancos SWE), uso de herramientas (tau bench) e instrucción siguiente (ifeval), de acuerdo con las métricas propias de Anthrope.

Claude obtiene datos en tiempo real en tiempo real

para mejorar la capacidad del modelo para trabajar con información actualizada, anhópico, lanzada por la web en vivo, para la búsqueda en la web en vivo, para la búsqueda en la web, para la búsqueda en la web, para la búsqueda en la web, para la búsqueda en vivo, para la búsqueda en la web, para la búsqueda en vivo, para la búsqueda en la web, para la búsqueda en la web, por la búsqueda de la web, por la búsqueda de la web, por la búsqueda de la web, para la búsqueda en la web. Claude Pro y usuarios de equipo con sede en EE. UU., La función recupera datos en tiempo real y adjunta citas de origen, algo que falta en muchos sistemas de IA competidores.

Cuando está habilitado, Claude determina selectivamente cuándo extraer información de la web e incluye enlaces en línea a artículos o publicaciones originales. El objetivo es equilibrar la producción generativa con fuentes verificables y rehacientes humanos, extendiendo más la iniciativa de transparencia de la Compañía.

Un protocolo para construir agentes transparentes

antrópico también es infraestructura para que Claude opere entre los trabajos de los agentes más complejos. El protocolo de contexto modelo de la compañía (MCP), primero introducido en noviembre de 2024, proporciona una forma estandarizada para que los sistemas de IA interactúen con las tiendas de memoria, las herramientas y las API. Microsoft agregó soporte para el MCP en Azure Ai Foundry, Semantic Kernel y Github esta semana, lo que permite a los agentes basados ​​en Claude construir y ejecutar procesos de múltiples pasos con persistencia.

A medida que los agentes de IA amplían su papel en la automatización de software y las tareas empresariales, la interpretabilidad se convierte en aún más urgente. Cuando un modelo ejecuta acciones del mundo real, comprender por qué hizo una decisión particular no es solo académica, es un requisito.

La transparencia de los inversores, y poder

, el momento reciente de Anthrope está respaldado por un apoyo financiero sustancial. En febrero, la compañía recaudó $ 3.5 mil millones, aumentando su valoración a $ 61.5 mil millones. Los inversores incluyeron Lightspeed Venture Partners, General Catalyst y MGX. La inversión anterior de $ 4 mil millones de Amazon consolidó aún más la presencia de Claude en la infraestructura de AWS.

Estos movimientos colocan antrópico en competencia estratégica con OpenAi, Google Deepmind, China Deepseek y otros laboratorios de IA como Elon Musk’s Xai. Si bien los rivales se centran en la integración multimodal o la búsqueda en vivo, Anthrope está apostando por su reputación en la alineación empresarial y la transparencia de comportamiento de IA.

que la estrategia también es evidente en la política. Este mes, la compañía presentó recomendaciones formales a la Casa Blanca, instando a las pruebas de seguridad nacional de sistemas de IA, controles de exportación de semiconductores más estrictos y la expansión de la infraestructura energética de EE. UU. Para apoyar el aumento de las cargas de trabajo de IA. Advirtió que la IA avanzada podría superar la capacidad humana en los campos clave para 2026: la producción de riesgos si las salvaguardas no se promulgan rápidamente.

Sin embargo, mientras aboga por una gobernanza externa más fuerte, Anthrope eliminó en silencio varias compromisas de seguridad voluntarias de su sitio web, cometidas como parte de una iniciativa de la Casa Blanca bajo la administración de Biden. La compañía no comentó públicamente sobre esta inversión, aunque ha provocado preocupaciones sobre las normas cambiantes de la industria en torno a la autorregulación.

El microscopio se encuentra con el espejo

CEO antrópico Dario Amodei ha expresado una visión clara para el desarrollo de IA. Según lo informado por Wired ,”Hay una buena posibilidad de que AI supere la inteligencia humana en muchas tareas en los próximos años. Incrustado en las operaciones de Anthrope, incluida la codificación, la investigación y el apoyo de políticas. Pero esta dependencia interna también conlleva riesgos, especialmente ya que las propias herramientas de la compañía revelan la capacidad de Claude para la mala dirección y la manipulación.

el comportamiento de Claude durante las pruebas internas, donde generó falsos falsos o estrategias para evitar ser corrigidos como un error, sino como un descripción esperada de entrenamiento de modelos grandes. Las herramientas que se está construyendo ahora puede ser esencial para gobernar modelos que se comportan con una autonomía creciente.

si estas herramientas se adoptarán ampliamente, o incluso suficientes, alzan una pregunta abierta. Pero con Claude evolucionando rápidamente y la supervisión de la industria todavía toma forma, la interpretabilidad ya no es un proyecto paralelo. Es la base para decidir si se puede confiar en AI avanzada.