Investigadores de Sakana AI, una startup de IA con sede en Tokio, han introducido un novedoso sistema de optimización de memoria que mejora la eficiencia de los modelos basados en Transformer. incluidos modelos de lenguaje grandes (LLM).
El método, llamado Modelos de Memoria y Atención Neural (NAMM), está disponible a través del código de capacitación completo en GitHub, reduce el uso de memoria hasta en un 75 % y mejora el rendimiento general. Al centrarse en tokens esenciales y eliminar información redundante, los NAMM abordan uno de los desafíos que consume más recursos en la IA moderna: la gestión de ventanas de contexto largas.
Los modelos de transformadores, la columna vertebral de los LLM, se basan en”ventanas de contexto”. para procesar datos de entrada. Estas ventanas de contexto almacenan”pares clave-valor”(caché KV) para cada token en la secuencia de entrada.
A medida que crece la longitud de la ventana (que ahora alcanza cientos de miles de tokens), la El costo computacional se dispara. Las soluciones anteriores intentaron reducir este costo mediante la poda manual de tokens o estrategias heurísticas, pero a menudo degradaban el rendimiento. Sin embargo, los NAMM utilizan redes neuronales entrenadas mediante optimización evolutiva para automatizar y refinar el proceso de gestión de la memoria.
Optimización de la memoria con NAMM
Los NAMM analizan los valores de atención generado por Transformers para determinar la importancia del token. Procesan estos valores en espectrogramas (representaciones basadas en frecuencia comúnmente utilizadas en el procesamiento de señales y audio) para comprimir y extraer características clave de los patrones de atención.
Esta información luego pasa a través de una red neuronal liviana que asigna una puntuación a cada token, decidiendo si debe retenerse o descartarse.
Sakana AI destaca cómo los algoritmos evolutivos impulsan los NAMM éxito. A diferencia de los métodos tradicionales basados en gradientes, que son incompatibles con decisiones binarias como”recordar”u”olvidar”, la optimización evolutiva prueba y refina de forma iterativa las estrategias de memoria para maximizar el rendimiento posterior.
“La evolución supera inherentemente la no diferenciabilidad de nuestras operaciones de gestión de memoria, que implican resultados binarios de’recordar’u’olvidar'”, explican los investigadores.
Resultados comprobados en distintos puntos de referencia
Para validar el rendimiento y la eficiencia de los modelos de memoria de atención neuronal (NAMM), Sakana AI realizó pruebas exhaustivas en múltiples puntos de referencia líderes en la industria diseñados para evaluar el procesamiento de contexto prolongado y las capacidades multitarea. Los resultados subrayaron significativamente la capacidad de los NAMM. mejorar el rendimiento al tiempo que reduce los requisitos de memoria, lo que demuestra su eficacia en diversos marcos de evaluación.
En LongBench, un benchmark creado específicamente para Para medir el rendimiento de los modelos en tareas de contexto prolongado, los NAMM lograron una mejora del 11 % en la precisión en comparación con el modelo de referencia de contexto completo. Esta mejora se logró al tiempo que se redujo el uso de memoria en un 75 %, lo que destaca la eficiencia del método en la gestión de la caché de valores clave (KV).
Al podar inteligentemente los tokens menos relevantes, los NAMM permitieron que el modelo se centrara en el contexto crítico sin sacrificar los resultados, lo que lo hace ideal para escenarios que requieren entradas extensas, como análisis de documentos o respuestas a preguntas largas.
p>
Para InfiniteBench, un punto de referencia que lleva los modelos al límite con características extremadamente secuencias largas (algunas de las cuales superan los 200.000 tokens) los NAMM demostraron su capacidad para escalar de manera efectiva.
Mientras los modelos de referencia luchaban con las demandas computacionales de entradas tan largas, los NAMM lograron un aumento espectacular del rendimiento, aumentando la precisión del 1,05 % al 11,00 %.
Este resultado es particularmente notable porque muestra la capacidad de los NAMM para manejar contextos ultralargos, una capacidad cada vez más esencial para aplicaciones como el procesamiento de literatura científica, documentos legales o grandes repositorios de códigos donde los tamaños de entrada de tokens son inmensos.
En el punto de referencia ChouBun de Sakana AI, que evalúa el razonamiento de contexto prolongado para tareas en japonés, Los NAMM arrojaron una mejora del 15% con respecto a la línea de base. ChouBun aborda una brecha en los puntos de referencia existentes, que tienden a centrarse en los idiomas inglés y chino, probando modelos en entradas de texto extendidas en japonés.
El éxito de los NAMM en ChouBun destaca su versatilidad en todos los idiomas y demuestra su solidez en el manejo de entradas que no están en inglés, una característica clave para las aplicaciones globales de IA. Los NAMM pudieron retener de manera eficiente contenido específico del contexto y al mismo tiempo descartar redundancias gramaticales y tokens menos significativos, lo que permitió que el modelo se desempeñara de manera más efectiva en tareas como el resumen extenso y la comprensión en japonés.
Fuente: Sakana AI
El Los resultados demuestran colectivamente que los NAMM destacan por optimizar el uso de la memoria sin comprometer la precisión. Ya sea que se evalúen en tareas que requieren secuencias extremadamente largas o en contextos de idiomas distintos del inglés, los NAMM superan consistentemente a los modelos de referencia, logrando eficiencia computacional y mejores resultados.
Esta combinación de ahorro de memoria y ganancias en precisión posiciona a los NAMM como un gran avance para los sistemas de inteligencia artificial empresariales encargados de manejar entradas vastas y complejas.
Los resultados son particularmente notables en comparación con métodos anteriores como H₂O y L2, que sacrificó el rendimiento en aras de la eficiencia. Los NAMM, por otro lado, logran ambas cosas.
“Nuestros resultados demuestran que los NAMM brindan mejoras consistentes en los ejes de rendimiento y eficiencia en relación con los transformadores de referencia”, afirman los investigadores.
Aplicaciones multimodales: más allá del lenguaje
Uno de los hallazgos más impresionantes fue la capacidad de los NAMM para transferir el disparo cero a otras tareas y modalidades de entrada.
Uno de los más destacables Uno de los aspectos más destacados de los modelos de memoria de atención neuronal (NAMM) es su capacidad para transferirse sin problemas entre diferentes tareas y modalidades de entrada, más allá de las aplicaciones tradicionales basadas en lenguaje.
A diferencia de otros métodos de optimización de la memoria, que a menudo requieren reentrenamiento o ajustes. Para cada dominio, los NAMM mantienen sus beneficios de eficiencia y rendimiento sin ajustes adicionales. Los experimentos de Sakana AI mostraron esta versatilidad en dos dominios clave: visión por computadora y aprendizaje por refuerzo, los cuales presentan desafíos únicos para los basados en Transformer. modelos.
Los NAMM entrenados en el lenguaje pueden ser cero-disparo transferido a otros transformadores a través de modalidades de entrada y dominios de tareas. (Imagen: Sakana AI)
En visión por computadora, los NAMM se evaluaron utilizando el modelo Llama Next Video, un Transformador diseñado para procesar largas secuencias de vídeo. Los vídeos contienen inherentemente grandes cantidades de datos redundantes, como fotogramas repetidos o variaciones menores que proporcionan poca información adicional.
Los NAMM identificaron y descartaron automáticamente estos cuadros redundantes durante la inferencia, comprimiendo efectivamente la ventana de contexto sin comprometer la capacidad del modelo para interpretar el contenido del video.
Por ejemplo, los NAMM retuvieron fotogramas con detalles visuales clave, como cambios de acción, interacciones de objetos o eventos críticos, al tiempo que eliminaron fotogramas repetitivos o estáticos. Esto dio como resultado una eficiencia de procesamiento mejorada, lo que permitió que el modelo se centrara en los elementos visuales más relevantes, manteniendo así la precisión y reduciendo al mismo tiempo los costos computacionales.
En el aprendizaje por refuerzo, se aplicaron NAMM a la Decision Transformer, un modelo diseñado para procesar secuencias de acciones, observaciones y recompensas para optimizar tareas de toma de decisiones. Las tareas de aprendizaje por refuerzo a menudo implican largas secuencias de entradas con distintos niveles de relevancia, donde acciones subóptimas o redundantes pueden obstaculizar el desempeño.
Los NAMM abordaron este desafío eliminando selectivamente tokens correspondientes a acciones ineficientes e información de bajo valor, conservando al mismo tiempo aquellos críticos para lograr mejores resultados.
Por ejemplo, en tareas como Hopper y Walker2d, que implica controlar agentes virtuales en movimiento continuo, los NAMM mejoraron el rendimiento en más de un 9 %. Al filtrar movimientos subóptimos o detalles innecesarios, Decision Transformer logró un aprendizaje más eficiente y efectivo, centrando su poder computacional en decisiones que maximizaron el éxito en la tarea.
Estos resultados resaltan la adaptabilidad de los NAMM en dominios muy diferentes. Ya sea procesando fotogramas de vídeo en modelos de visión u optimizando secuencias de acción en el aprendizaje por refuerzo, los NAMM demostraron su capacidad para mejorar el rendimiento, reducir el uso de recursos y mantener la precisión del modelo, todo sin necesidad de volver a entrenar.
Los NAMM aprenden a olvidar casi exclusivamente las partes de cuadros de video redundantes, en lugar de tokens de lenguaje que describen el mensaje final, las notas en papel, destacando la adaptabilidad de los NAMM.
Fundamentos técnicos de NAMM
La eficiencia y eficacia de los modelos de memoria de atención neuronal (NAMM) radican en su proceso de ejecución simplificado y sistemático, que permite una poda precisa de tokens sin intervención manual. Este proceso se basa en tres componentes principales: espectrogramas de atención, compresión de características y puntuación automatizada.
Los NAMM ajustan dinámicamente su comportamiento según los requisitos de la tarea y la profundidad de la capa del transformador. Las primeras capas priorizan el contexto”global”, como las descripciones de tareas, mientras que las capas más profundas conservan detalles”locales”específicos de las tareas. En las tareas de codificación, por ejemplo, los NAMM descartaban comentarios y códigos repetitivos; en tareas de lenguaje natural, eliminaron las redundancias gramaticales y al mismo tiempo retuvieron el contenido clave.
Esta retención de tokens adaptativa garantiza que los modelos permanezcan centrados en la información relevante durante todo el procesamiento, lo que mejora la velocidad y la precisión.
El primero El paso implica generar espectrogramas de atención. Los transformadores calculan”valores de atención”en cada capa para determinar la importancia relativa de cada token dentro de la ventana de contexto. Los NAMM transforman estos valores de atención en representaciones basadas en frecuencia usando la Transformada de Fourier de tiempo corto (STFT).
STFT es una técnica de procesamiento de señales ampliamente utilizada que descompone una secuencia en componentes de frecuencia localizados a lo largo del tiempo, proporcionando una representación compacta pero detallada de la importancia del token. convierte secuencias de atención sin procesar en datos similares a espectrogramas, lo que permite un análisis más claro de qué tokens contribuyen de manera significativa a la salida del modelo.
A continuación, se aplica la compresión de características para reducir la dimensionalidad del datos del espectrograma preservando sus características esenciales. Esto se logra utilizando un promedio móvil exponencial (EMA), un método matemático que comprime los patrones de atención históricos en un resumen compacto de tamaño fijo. EMA garantiza que las representaciones sigan siendo livianas y manejables, lo que permite a los NAMM analizar largas secuencias de atención de manera eficiente y, al mismo tiempo, minimizar la sobrecarga computacional.
El paso final es Puntuación y poda, donde los NAMM utilizan un formato liviano. Clasificador de redes neuronales para evaluar las representaciones de tokens comprimidos y asignar puntuaciones en función de su importancia. Los tokens con puntuaciones por debajo de un umbral definido se eliminan de la ventana de contexto,”olvidando”efectivamente detalles inútiles o redundantes. Este mecanismo de puntuación permite a los NAMM priorizar tokens críticos que contribuyen al proceso de toma de decisiones del modelo y descartar datos menos relevantes.
Lo que hace que los NAMM sean particularmente efectivos es su dependencia de la optimización evolutiva para refinar este proceso. Los métodos de optimización tradicionales, como el descenso de gradientes, luchan con tareas no diferenciables, como decidir si. un token debe conservarse o descartarse.
En cambio, los NAMM utilizan un algoritmo evolutivo iterativo, inspirado en la selección natural, para”mutar”y”seleccionar”las estrategias de gestión de memoria más eficientes a lo largo del tiempo. el sistema evoluciona para priorizar automáticamente los tokens esenciales, logrando un equilibrio entre rendimiento y eficiencia de la memoria sin necesidad de ajustes manuales.
Esta ejecución simplificada, que combina análisis de tokens basado en espectrogramas, compresión eficiente y automatización poda: permite a los NAMM ofrecer importantes ahorros de memoria y ganancias de rendimiento en diversas tareas basadas en Transformer. Al reducir los requisitos computacionales y al mismo tiempo mantener o mejorar la precisión, los NAMM establecen un nuevo punto de referencia para la gestión eficiente de la memoria en los modelos de IA modernos.
¿Qué sigue para los Transformers?
Sakana AI cree que los NAMM son sólo el comienzo. Si bien el trabajo actual se centra en optimizar los modelos previamente entrenados en la inferencia, las investigaciones futuras pueden integrar los NAMM en el proceso de capacitación en sí. Esto podría permitir que los modelos aprendan estrategias de gestión de memoria de forma nativa, ampliando aún más la duración de las ventanas de contexto y aumentando la eficiencia en todos los dominios.
“Este trabajo apenas ha comenzado a explorar el espacio de diseño de nuestros modelos de memoria, que anticipamos.”Puede ofrecer muchas oportunidades nuevas para avanzar en las generaciones futuras de transformadores”, concluye el equipo.
La capacidad comprobada de los NAMM para escalar el rendimiento, reducir costos y adaptarse entre modalidades establece un nuevo estándar para la eficiencia de los transformadores a gran escala. Modelos de IA.