Cognition, il laboratorio di intelligenza artificiale dietro l’agente Devin, ha lanciato SWE-1.5, un nuovo modello di codifica ad alta velocità che sfida il mercato dando priorità sia alle prestazioni che alla velocità.

Annunciato il 29 ottobre, il modello è ora disponibile nell’IDE Windsurf, che Cognition ha acquisito a luglio. L’azienda afferma che SWE-1.5 funziona fino a 13 volte più velocemente di Sonnet 4.5 di Anthropic, grazie a una partnership con il fornitore di inferenza Cerebras.

Il rilascio arriva quando la rivale Cursor ha lanciato il proprio modello veloce, Composer, segnalando una nuova tendenza in cui le società di agenti di intelligenza artificiale stanno costruendo modelli proprietari per creare esperienze di sviluppo strettamente integrate e a bassa latenza e ridurre la dipendenza da API di terze parti.

Un nuovo standard di velocità e intelligenza

Con una mossa che rispecchia direttamente i suoi concorrenti, Cognition sta scommettendo sull’integrazione verticale per risolvere una frustrazione fondamentale per gli sviluppatori: il compromesso tra intelligenza del modello e tempo di risposta.

La strategia dell’azienda si basa sull’idea di co-progettare il modello, il suo sistema di inferenza e il cablaggio dell’agente come un unico sistema unificato.

Secondo annuncio ufficiale,”Gli sviluppatori non dovrebbero essere costretti a scegliere tra un’intelligenza artificiale che pensa velocemente e una che pensa bene.”

Questa filosofia è alla base di SWE-1.5, che Cognition descrive come un modello di”dimensioni di frontiera”con centinaia di miliardi di parametri, progettato specificamente per eliminare quel compromesso e offrire prestazioni d’élite e best-in-class velocità.

La caratteristica più sorprendente del modello è la sua velocità pura, il risultato di una stretta collaborazione con lo specialista in inferenza Cerebras. Cognition afferma che questa collaborazione consente a SWE-1.5 di raggiungere una latenza notevole, affermando:”Definisce anche un nuovo standard di velocità: abbiamo collaborato con Cerebras per fornirlo fino a 950 tok/s-6 volte più veloce di Haiku 4.5 e 13 volte più veloce di Sonnet 4.5.”

Questo salto di prestazioni mira a mantenere gli sviluppatori in uno”stato di flusso”completando le attività in meno di cinque secondi, una soglia critica per evitare ciò che l’azienda chiama la”valle della morte semi-asincrona”.

Gli sforzi di ottimizzazione sono andati oltre il modello stesso, poiché la sua velocità ha rivelato nuovi colli di bottiglia nell’IDE Windsurf, costringendo il team a riscrivere componenti critici come il controllo dei lanugine e le pipeline di esecuzione dei comandi per ridurre il sovraccarico del sistema fino a due secondi per passaggio.

Sebbene le dichiarazioni di velocità di Cognition siano coraggiose, l’azienda ha anche fornito dati dal benchmark SWE-Bench Pro per comprovare la sua prestazioni.

Sul benchmark, che consiste in 731 difficili attività di codifica ad agenti in 41 diversi repository di codice, SWE-1.5 dimostra il compromesso che mira a conquistare.

Mentre Sonnet 4.5 di Anthropic ha ottenuto il punteggio più alto con il 43,60%, lo ha fatto a una velocità di soli 69 token/secondo. Al contrario, SWE-1.5 ha ottenuto un punteggio altamente competitivo del 40,08%, raggiungendo prestazioni quasi all’avanguardia, ma con una velocità incredibile di 950 token al secondo, rendendolo quasi 14 volte più veloce.

Ciò posiziona il modello come uno strumento potente per gli sviluppatori che necessitano di risultati di alta qualità senza i ritardi di interruzione del flusso di lavoro di altri modelli di alto livello.

I risultati del benchmark mostrano che SWE-1.5 supera diversi altri modelli degni di nota. sia nella precisione che nella velocità. Ha superato Haiku 4.5 di Anthropic (punteggio del 39,45% a 142 tok/s) e una versione di alto livello di GPT-5 (punteggio del 36,30% a 43 tok/s).

Il nuovo modello rappresenta anche un enorme salto generazionale per Cognition, ottenendo un punteggio più che doppio rispetto al suo predecessore, SWE-1, che riusciva solo al 16,55% a 39 tok/s. Questi

questi dati rafforzano l’argomentazione centrale di Cognition: SWE-1.5 offre prestazioni competitive con le migliori del mercato, stabilendo allo stesso tempo uno standard completamente nuovo per la velocità.

Alla base del nuovo modello c’è un massiccio investimento in infrastrutture all’avanguardia. Cognition rivela che SWE-1.5 è stato addestrato su un”cluster all’avanguardia di migliaia di chip GB200 NVL72″e afferma che potrebbe essere il”primo modello di produzione pubblica addestrato sulla nuova generazione GB200″.

L’accesso all’hardware all’inizio di giugno, quando il suo firmware era ancora immaturo, ha richiesto al team di costruire da zero sistemi di addestramento più robusti per il controllo dello stato e con tolleranza agli errori.

Questo potente hardware è stato essenziale per le tecniche di apprendimento intensivo per rinforzo (RL) utilizzate per mettere a punto il modello in modo specifico per i compiti complessi a più fasi coinvolti nella moderna ingegneria del software.

L’impatto del rinforzo

Il lancio di SWE-1.5 arriva quando l’ambiente di codifica AI Cursor ha rilasciato il proprio modello proprietario ad alta velocità, Composer.

I parallelismi tra i due annunci sono impossibili da ignorare e indicano una chiara convergenza strategica nell’intelligenza artificiale mercato degli strumenti per sviluppatori.

Entrambe le società stanno adottando l’apprendimento per rinforzo su vasta scala. Cognition ha utilizzato un hypervisor VM chiamato otterlink per eseguire implementazioni RL in decine di migliaia di ambienti simultanei ad alta fedeltà che includono l’esecuzione di codice e la navigazione sul Web.

Questo metodo è sorprendentemente simile alla descrizione di Cursor dell’esecuzione di”centinaia di migliaia di ambienti di codifica sandbox simultanei”per la propria formazione RL.

Questo approccio condiviso evidenzia una crescente convinzione secondo cui per creare un agente di codifica veramente efficace, le aziende devono perfeziona i modelli rispetto ai propri strumenti personalizzati e agli scenari del mondo reale.

Un ricercatore di Cursor ML ha delineato questa strategia, affermando:”ora c’è una quantità minima di intelligenza necessaria per essere produttivi e se riesci ad abbinarla alla velocità è fantastico.”

Un’altra somiglianza è la mancanza di trasparenza. Sia Cognition che Cursor sono stati riservati riguardo alla fondazione dei loro nuovi modelli, riferendosi solo a un”modello base open source leader”.

Questa segretezza rende difficile la valutazione indipendente e fa affidamento sulla fiducia degli utenti nei benchmark interni delle aziende. Tuttavia, le prime impressioni sono positive. L’esperto di intelligenza artificiale e blogger Simon Willison ha notato dopo aver testato il nuovo modello:”Questo è sembrato davvero veloce. Collaborare con Cerebras per l’inferenza è una mossa molto intelligente.”

Dalle ceneri di Windsurf, una nuova strategia

Sfruttare le risorse del suo Con l’acquisizione di alto profilo di Windsurf, Cognition si sta basando su un marchio e un prodotto consolidati.

Il nuovo modello è un’evoluzione della famiglia SWE (Software Engineering), un progetto avviato dal team originale di Windsurf nel maggio 2025, prima che la sua prevista acquisizione da parte di OpenAI fallisse e Cognition intervenisse come soccorritore.

Integrando SWE-1.5 direttamente nell’IDE di Windsurf, Cognition sta realizzando una visione di co-progettazione del modello, del cablaggio degli agenti e dell’esperienza utente come un unico sistema unificato. L’azienda sostiene che questo approccio olistico è fondamentale per le prestazioni.

Nel suo annuncio, Cognition ha spiegato:”La scelta di un agente di codifica non riguarda solo il modello in sé. Anche l’orchestrazione circostante ha un impatto enorme sulle prestazioni del modello.”

Questa strategia consente all’azienda di iterare rapidamente, utilizzando il feedback dell’ambiente Windsurf per regolare strumenti e istruzioni, e quindi riqualificare il modello sul sistema aggiornato.

È una scommessa che un’esperienza strettamente integrata e ad alta velocità può ritagliarsi una base di utenti fedeli, anche senza avere il modello più grande in assoluto sul mercato. Con l’intensificarsi della battaglia per i desktop degli sviluppatori, la capacità di fornire sia intelligenza che velocità all’interno di un flusso di lavoro fluido può diventare il principale elemento di differenziazione.

Categories: IT Info