Un consorcio de investigadores universitarios y de Amazon ha presentado una nueva arquitectura de IA, el Transformador basado en la energía (EBT). Está diseñado para equipar modelos con más habilidades analíticas humanas. El enfoque tiene como objetivo inculcar el”pensamiento del sistema 2″en la IA, que a menudo se basa en el reconocimiento de patrones rápidos e intuitivos.
Detallado en A Nuevo documento de investigación , el modelo EBT trata el pensamiento como un proceso de optimización iterativa. Comienza con una solución aleatoria y gradualmente lo mejora para minimizar una puntuación de”energía”calculada. Si bien los primeros resultados sugieren que los EBT podrían ser más eficientes en datos, el método requiere más cálculo.
La pregunta central del proyecto, según lo plantea los investigadores, es:”¿Es posible generalizar estos enfoques de pensamiento del sistema 2 y desarrollar modelos que aprendan a pensar únicamente de un aprendizaje no supervisado?”Esto desafía el paradigma actual del desarrollo de la IA. El trabajo está disponible en A página del proyecto y github .
>
De la intuición al análisis: la búsqueda del”Sistema 2″AI
La arquitectura EBT representa un cambio fundamental lejos del paradigma dominante de IA. La mayoría de los modelos actuales, incluidos los transformadores estándar, Excel en lo que Nobel laureate daniel kahnemanemaneMane”text 1 text”. Casi instantáneamente.
Sin embargo, estos modelos a menudo vacilan en las tareas que requieren”pensamiento del sistema 2″: los humanos de razonamiento más lento, deliberado y analítico emplean para problemas complejos como matemáticas múltiples o rompecabezas lógicos. El marco EBT es un intento directo de construir este proceso cognitivo más profundo directamente en la arquitectura del modelo.
En su corazón, el EBT reflexiona a la predicción como un rompecabezas de optimización. Un transformador estándar toma una entrada y genera una salida en un solo pase de avance determinista. Por el contrario, un EBT aprende un complejo”panorama energético”de alta dimensión para todas las predicciones posibles relacionadas con un contexto dado.
En lugar de producir directamente una respuesta, el modelo comienza con una suposición aleatoria y ruidosa. Luego usa los principios de la descendencia de gradiente para refinar iterativamente esta suposición, esencialmente”caminar”cuesta abajo en el panorama energético aprendido hasta que se asienta en el punto más bajo posible, o”Valle de Energía”.
Este estado de energía más baja representa la respuesta más plausible y contextualmente coherente. Este proceso de refinamiento iterativo es el núcleo del mecanismo de”pensamiento”del EBT. Permite que el modelo explore un espacio de soluciones potenciales en lugar de estar bloqueado en una sola ruta.
Este enfoque está diseñado para incorporar tres facetas clave de la cognición a menudo ausentes en modelos estándar. El primero es la asignación de cálculo dinámico. Para un problema simple, el modelo puede encontrar la energía mínima en solo unos pocos pasos. Para uno complejo, puede tomar muchos más pasos, gastando efectivamente más”pensamiento”en el problema.
La segunda faceta es la capacidad de modelar la incertidumbre. Un paisaje de energía suave con un mínimo claro indica una alta certeza. Un paisaje resistente con muchos valles locales sugiere que el modelo es incierto, ya que existen múltiples respuestas plausibles. Esto proporciona una comprensión más matizada de la propia confianza del modelo.
Tercero, la arquitectura incluye un mecanismo intrínseco para la verificación de predicción. El puntaje de energía final de una predicción sirve como una verificación de calidad incorporada. Un puntaje bajo indica una respuesta verificada de alta calidad, mientras que una puntuación alta señala una pobre, todo sin necesidad de un modelo de verificador separado.
integrando estas tres capacidades, el EBT tiene como objetivo crear una forma de razonamiento más robusta y generalizable. Se mueve más allá de la simple generación de patrones a un proceso de resolución de problemas activa e iterativa, marcando un paso conceptual significativo en la búsqueda de una inteligencia artificial más capaz.
cómo los transformadores basados en la energía ‘piensan’
Los investigadores afirman que este enfoque tiene ventajas de escalas significativas, atribuyendo a un principio central: verificar una solución a menudo a una solución a menudo es calculador. Si bien un transformador estándar debe aprender la ruta directa a una respuesta, un EBT aprende a calificar la”corrección”de cualquier respuesta dada, una tarea más simple que parece generalizarse de manera más efectiva. Su documento informa que EBTS se escala de manera más eficiente que la línea de base avanzada del transformador ++, que muestra una tasa de escala 35% más alta con respecto a los datos.
La eficiencia de datos mejorada es particularmente notable. Sugiere que a escala, un EBT podría lograr el mismo rendimiento que un transformador estándar mientras se capacita en datos significativamente menos. En una era en la que la industria se acerca a los límites de los datos de capacitación de alta calidad disponibles en la Web, desarrollar arquitecturas más eficientes en datos es un objetivo estratégico crítico para el progreso continuo de IA.
Tal”pensamiento”se manifiesta de dos maneras clave durante la inferencia. Primero, el modelo puede realizar pasos de refinamiento más iterativos en una sola predicción, dedicando efectivamente más cómputo a un problema difícil. En segundo lugar, puede generar varias respuestas candidatas y usar su función de energía interna para autoverificar y seleccionar la que tiene la energía más baja, lo que indica la mayor compatibilidad. Este impulso de rendimiento es más pronunciado en las tareas fuera de distribución (OOD): problemas que difieren de los datos de capacitación.
El autor principal Alexi Gladstone afirma que”los transformadores basados en la energía son el primer enfoque para superar los transformadores de alimentación a través de las modalidades y con respecto a varios ejes, incluidos datos, profundidad, parámetros, flopos, etc.””Al”pensar”más tiempo en la inferencia, EBTS mejoró el rendimiento de la tarea del idioma hasta en hasta un 29%. Esto sugiere que el proceso iterativo les permite razonar de manera más sólida en situaciones novedosas donde los modelos estándar podrían depender de la coincidencia de patrones defectuosos.
rendimiento prometedor, pero a un costo significativo
A pesar de los resultados prometedores, la arquitectura EBT enfrenta un obstáculo importante: costo computacional. La capacitación de estos modelos actualmente requiere entre 3.3 y 6.6 veces más operaciones de punto flotante (FLOPS) que los transformadores estándar. Esta sobrecarga sustancial no es solo una preocupación teórica; Plantea una barrera significativa para la adopción, potencialmente limitando la investigación y el desarrollo de EBT solo a los laboratorios académicos mejor financiados y grandes corporaciones tecnológicas con grandes recursos computacionales.
El alto requisito de flop se deriva directamente del proceso de optimización iterativa en el núcleo del diseño del EBT. A diferencia del pase de avance único de un modelo estándar, cada paso de refinamiento en un EBT implica cálculos de gradiente complejos para determinar la dirección del próximo”pensamiento”. Este proceso, que requiere calcular derivados de segundo orden (o aproximaciones eficientes como los productos de vector de hessian), es fundamentalmente más intensivo. El equipo reconoce que este es un área clave para el trabajo de optimización futuro, ya que hacer que este proceso de”pensamiento”sea más barato es esencial para la implementación práctica.
Además, los experimentos iniciales se realizaron en modelos con hasta 800 millones de parámetros. Esta es una fracción del tamaño de los sistemas de IA más grandes de hoy, que a menudo exceden los cientos de miles de millones de parámetros. Escalar una arquitectura por órdenes de magnitud es notoriamente difícil, a menudo revelando desafíos imprevistos como las inestabilidades de entrenamiento o los paisajes energéticos que se vuelven demasiado complejos para navegar de manera efectiva. Por lo tanto, sigue siendo una pregunta abierta si los beneficios de rendimiento observados a esta escala más pequeña se mantendrán, o incluso amplificarán, cuando se aplican a los modelos fronterizos.
en última instancia, el EBT presenta una compensación fundamental para la comunidad de IA: ¿es el potencial de un razonamiento más sólido y humano que vale un aumento de varias veces en la capacitación y los costos de inferencia? La respuesta probablemente dependerá de la aplicación. Para las tareas científicas o analíticas de alto riesgo, el precio puede estar justificado, pero para el uso de uso general, el análisis de costo-beneficio sigue siendo un problema crítico y no resuelto.
El impulso de la industria más amplio para una eficiencia de IA
El concepto de EBT es un impulso más amplio de la industria de la IA por una mayor eficiencia de IA. Varias compañías están abordando este desafío desde diferentes ángulos, destacando la necesidad crítica de reducir los inmensos costos asociados con la IA a gran escala.
Estos métodos competitivos abordan la eficiencia en diferentes etapas. Compactifai de Multiverse comprime el modelo estático en sí. Los NAMM de Sakana optimizan el caché dinámico de KV durante la inferencia. Bamba de IBM utiliza una arquitectura híbrida para acelerar el procesamiento de secuencias.
En contraste, los EBT alteran fundamentalmente el mecanismo de predicción en sí. En lugar de simplemente optimizar un modelo terminado o su memoria, los EBT integran un proceso de”pensamiento”directamente en cómo se forma cada predicción, con el objetivo de una mejor generalización y razonamiento desde cero.
Por ejemplo, la informática multiverso de inicio español se centra en la compresión del modelo. Su CEO, Enrique Lizaso Olmos, señaló:”La sabiduría predominante es que la reducción de LLM tiene un costo. El multiverso está cambiando eso”. Mientras tanto, el modelo BAMBM de IBM se dirige a la velocidad de inferencia.
El plomo del proyecto de IBM, Raghu Ganti, explicó la estrategia:”Todo vuelve a la reducción de caché de KV… más rendimiento, latencia más baja, mayor longitud de contexto”. Otras innovaciones, como el sistema de optimización de memoria de Sakana AI, también tienen como objetivo hacer que los transformadores sean más eficientes. Los investigadores de Sakana encontraron que”la evolución inherentemente supera la no diferenciabilidad de nuestras operaciones de gestión de memoria, que implican resultados binarios de”recordar”o”olvidar””.
Estos variados enfoques muestran un cambio en el desarrollo de la IA. A medida que los modelos crecen, la industria está corriendo para encontrar formas sostenibles de entrenarlos y desplegarlos. Los investigadores de EBT creen que su trabajo es una parte clave de este futuro, concluyendo que”los EBT son un nuevo paradigma prometedor para ampliar las capacidades de aprendizaje y pensamiento de los modelos”.