Cognition, el laboratorio de inteligencia artificial detrás del agente Devin, lanzó SWE-1.5, un nuevo modelo de codificación de alta velocidad que desafía al mercado al priorizar tanto el rendimiento como la velocidad.
Anunciado el 29 de octubre, el modelo ahora está disponible en Windsurf IDE, que Cognition adquirió en julio. La compañía afirma que SWE-1.5 opera hasta 13 veces más rápido que Sonnet 4.5 de Anthropic, gracias a una asociación con el proveedor de inferencia Cerebras.
El lanzamiento se produce cuando su rival Cursor lanzó su propio modelo rápido, Composer, lo que indica una nueva tendencia en la que las empresas de agentes de IA están creando modelos propietarios para crear experiencias de desarrollador estrechamente integradas y de baja latencia y reducir la dependencia de API de terceros.
Un nuevo estándar de velocidad e inteligencia
En un movimiento que refleja directamente a sus competidores, Cognition está apostando por la integración vertical para resolver una frustración central de los desarrolladores: el equilibrio entre la inteligencia del modelo y el tiempo de respuesta.
La estrategia de la empresa se basa en la idea de codiseñar el modelo, su sistema de inferencia y el arnés del agente como un sistema único y unificado.
Según el anuncio oficial,”Los desarrolladores no deberían tener que elegir entre una IA que piensa rápido y otra que piensa bien”.
Esta filosofía sustenta SWE-1.5, que Cognition describe como un modelo de”tamaño de frontera”con cientos de miles de millones de parámetros, diseñado específicamente para eliminar ese compromiso y ofrecer un rendimiento de élite y el mejor de su clase. velocidad.
La característica más llamativa del modelo es su velocidad bruta, resultado de una estrecha colaboración con el especialista en inferencia Cerebras. Cognition afirma que esta colaboración permite a SWE-1.5 lograr una latencia notable y afirma:”También establece un nuevo estándar de velocidad: nos asociamos con Cerebras para ofrecerlo a hasta 950 tok/s, 6 veces más rápido que Haiku 4.5 y 13 veces más rápido que Sonnet 4.5″.
Este salto de rendimiento tiene como objetivo mantener a los desarrolladores en un”estado de flujo”al completar tareas en menos de cinco segundos, un umbral crítico para evitar lo que la compañía llama el”valle de la muerte semi-asíncrono”.
Los esfuerzos de optimización fueron más allá del modelo en sí, ya que su velocidad reveló nuevos cuellos de botella en el IDE de Windsurf, lo que obligó al equipo a reescribir componentes críticos como la verificación de pelusa y los canales de ejecución de comandos para reducir la sobrecarga del sistema en hasta dos segundos por paso.
Si bien las afirmaciones de velocidad de Cognition son audaces, la compañía también proporcionó datos del banco de pruebas SWE-Bench Pro para fundamentar su rendimiento.
En el punto de referencia, que consta de 731 tareas difíciles de codificación agente en 41 repositorios de código diversos, SWE-1.5 demuestra la compensación que pretende conquistar.
Si bien Sonnet 4.5 de Anthropic logró la puntuación más alta con un 43,60%, lo hizo a una velocidad de solo 69 tokens/segundo. Por el contrario, SWE-1.5 obtuvo una puntuación altamente competitiva del 40,08 %, logrando un rendimiento cercano a la frontera, pero a una increíble velocidad de 950 tokens/segundo, lo que lo hace casi 14 veces más rápido.
Esto posiciona al modelo como una poderosa herramienta para los desarrolladores que necesitan resultados de alta calidad sin los retrasos que interrumpen el flujo de trabajo de otros modelos de primer nivel.
Los resultados de referencia muestran que SWE-1.5 supera a varios otros. Modelos notables tanto en precisión como en velocidad. Superó al Haiku 4.5 de Anthropic (39,45 % de puntuación a 142 tok/s) y a una versión de alto nivel de GPT-5 (36,30 % de puntuación a 43 tok/s).
El nuevo modelo también representa un enorme salto generacional para Cognition, con una puntuación de más del doble de su predecesor, SWE-1, que logró solo un 16,55 % a 39 tok/s. Estos datos refuerzan el argumento central de Cognition: SWE-1.5 ofrece un rendimiento competitivo con los mejores del mercado, al tiempo que establece un estándar completamente nuevo de velocidad.
La base del nuevo modelo es una inversión masiva en infraestructura de vanguardia. Cognition revela que SWE-1.5 fue entrenado en un”grupo de última generación de miles de chips GB200 NVL72″y afirma que puede ser el”primer modelo de producción pública entrenado en la nueva generación GB200″.
Para acceder al hardware a principios de junio, cuando su firmware aún estaba inmaduro, requirió que el equipo construyera sistemas de capacitación más robustos de verificación de estado y tolerantes a fallas desde cero.
Este poderoso hardware fue esencial para las técnicas intensivas de aprendizaje por refuerzo (RL) utilizadas para afinar el modelo específicamente para las tareas complejas de múltiples pasos involucradas en la ingeniería de software moderna.
El impacto del refuerzo
El lanzamiento de SWE-1.5 se produce cuando el entorno de codificación de IA Cursor lanzó su propio modelo patentado de alta velocidad, Composer.
Los paralelos entre los dos anuncios son imposibles de ignorar y apuntan a una clara convergencia estratégica en la IA. mercado de herramientas para desarrolladores.
Ambas empresas están adoptando el aprendizaje por refuerzo a gran escala. Cognition utilizó un hipervisor de VM llamado otterlink para ejecutar implementaciones de RL en decenas de miles de entornos simultáneos de alta fidelidad que incluyen ejecución de código y navegación web.
Este método es sorprendentemente similar a la descripción de Cursor de ejecutar”cientos de miles de entornos de codificación de espacio aislado concurrentes”para su propia capacitación de RL.
Este enfoque compartido resalta una creciente creencia de que para construir un agente de codificación verdaderamente eficaz, las empresas deben ajustar los modelos según sus propias herramientas personalizadas y escenarios del mundo real.
Un investigador de Cursor ML formuló esta estrategia y afirmó:”Aquí hay una cantidad mínima de inteligencia que es necesaria para ser productivo, y si se puede combinar eso con velocidad, es increíble”.
Otra similitud es la falta de transparencia. Tanto Cognition como Cursor han sido reservados sobre la base de sus nuevos modelos, refiriéndose únicamente a un”modelo base líder de código abierto”.
Este secreto dificulta la evaluación independiente y depende de que los usuarios confíen en los puntos de referencia internos de las empresas. Sin embargo, las primeras impresiones son positivas. El blogger y experto en inteligencia artificial Simon Willison señaló después de probar el nuevo modelo:”Este se sintió muy rápido. Asociarse con Cerebras para realizar inferencias es una decisión muy inteligente”.
De las cenizas del windsurf, una nueva estrategia
Aprovechar los activos de Tras su adquisición de alto perfil de Windsurf, Cognition se basa en una marca y un producto establecidos.
El nuevo modelo es una evolución de la familia SWE (Ingeniería de software), un proyecto iniciado por el equipo original de Windsurf en mayo de 2025, antes de que su adquisición planificada por parte de OpenAI colapsara y Cognition interviniera como salvador.
Al integrar SWE-1.5 directamente en Windsurf IDE, Cognition está ejecutando una visión de codiseñar el modelo, el aprovechamiento del agente y la experiencia del usuario como un sistema único y unificado. La empresa sostiene que este enfoque holístico es fundamental para el rendimiento.
En su anuncio, Cognition explicó:”Elegir un agente de codificación no se trata solo del modelo en sí. La orquestación circundante también tiene un impacto enorme en el rendimiento del modelo”.
Esta estrategia permite a la empresa iterar rápidamente, utilizando la retroalimentación del entorno de Windsurf para ajustar herramientas e indicaciones, y luego volver a entrenar el modelo en el sistema actualizado.
Es un Apuesto a que una experiencia estrechamente integrada y de alta velocidad puede crear una base de usuarios leales, incluso sin tener el modelo más grande del mercado. A medida que se intensifica la batalla por los escritorios de los desarrolladores, la capacidad de ofrecer inteligencia y velocidad dentro de un flujo de trabajo fluido puede convertirse en el diferenciador clave.