Cognition, Devin-agentin takana oleva tekoälylaboratorio, on julkaissut SWE-1.5:n, uuden nopean koodausmallin, joka haastaa markkinat priorisoimalla sekä suorituskyvyn että nopeuden.
Lokakuun 29. päivänä julkistettu malli on nyt saatavilla Windsurf IDE:ssä, jonka Cognition osti heinäkuussa. Yhtiö väittää, että SWE-1.5 toimii jopa 13 kertaa nopeammin kuin Anthropicin Sonnet 4.5, kiitos kumppanuuden päätelmien tarjoajan Cerebrasin kanssa.
Julkaisu tulee, kun kilpailija Cursor julkaisi oman nopean mallinsa, Composer, mikä viestii uudesta trendistä, jossa tekoälyagenttiyritykset rakentavat patentoituja malleja luodakseen tiukasti integroituja, matalan riippuvuuden kolmannen osapuolen kehittäjämalleja. API:t.
Uusi standardi nopeudelle ja älykkyydelle
Kilpailijoitaan suoraan heijastavassa liikkeessä Cognition lyö vetoa vertikaalisesta integraatiosta ratkaistakseen ydinkehittäjien turhautumisen: mallin älykkyyden ja vasteajan välisen kompromissin.
Yrityksen strategia perustuu ajatukseen mallina, yksittäisenä agenttina ja yhtenäisestä järjestelmästä. järjestelmään.
Yhtiön virallisen tiedotteen mukaan”Kehittäjien ei pitäisi joutua valitsemaan nopeasti ajattelevan tekoälyn ja hyvin ajattelevan tekoälyn välillä.”
Tämä filosofia tukee SWE-1-mallia. satoja miljardeja parametreja, jotka on erityisesti suunniteltu eliminoimaan tämä kompromissi ja tarjoamaan sekä huippusuorituskykyä että luokkansa parasta nopeutta.
Mallin silmiinpistävin ominaisuus on sen raakanopeus, joka on seurausta läheisestä yhteistyöstä päättelyasiantuntija Cerebrasin kanssa. Cognition väittää, että tämä yhteistyö mahdollistaa SWE-1.5:n huomattavan viiveen saavuttamisen, ja totesi:”Se asettaa myös uuden standardin nopeudelle: teimme yhteistyötä Cerebrasin kanssa palvellaksemme sitä jopa 950 tok/s-6x nopeampi kuin Haiku 4.5 ja 13x nopeampi kuin Sonnet 4.5.”
Tämän tilan tavoitteena on”suorituskyvyn parantaminen”alle viisi sekuntia, kriittinen kynnys välttää sitä, mitä yritys kutsuu”puoliasynkroniseksi kuolemanlaaksoksi”.
Optimointityöt menivät itse mallia pidemmälle, koska sen nopeus paljasti uusia pullonkauloja Windsurf IDE:ssä, mikä pakotti tiimin kirjoittamaan uudelleen kriittiset komponentit, kuten nukkatarkistuksen ja komennon suorittamisen vähentämällä järjestelmän kahdessa sekunnissa putkilinjaa.
Vaikka Cognitionin nopeusväitteet ovat rohkeita, yritys toimitti myös tietoja SWE-Bench Pro-vertailuarvosta suorituskyvyn tueksi.
Vertailussa, joka koostuu 731 vaikeasta agenttikoodaustehtävästä 41 erilaisessa koodivarastossa, SWE-1.5 osoittaa, että se pyrkii valloittamaan
Tämä tekee mallista tehokkaan työkalun kehittäjille, jotka tarvitsevat korkealaatuisia tuloksia ilman työnkulkua häiritseviä
muiden huipputulosten viivettäp>. SWE-1.5 ylittää useita muita merkittäviä malleja sekä tarkkuudessa että nopeudessa. Se ylitti Anthropicin Haiku 4.5:n (39,45 % pistemäärä nopeudella 142 tok/s) ja korkean tason version GPT-5:stä (36,30 % pistemäärä nopeudella 43 tok/s).
Uusi malli edustaa myös valtavaa sukupolven harppausta Cognitionille, pisteytyksensä yli kaksinkertainen verrattuna SWE-1:een,5 %:iin verrattuna. 39 t/s. T
hänen tiedot vahvistavat Cognitionin keskeistä argumenttia: SWE-1.5 tarjoaa suorituskyvyn, joka on kilpailukykyinen markkinoiden parhaiden kanssa ja asettaa samalla täysin uuden standardin nopeudelle.
Uuden mallin taustalla on valtava investointi huippuluokan infrastruktuuriin. Cognition paljastaa, että SWE-1.5 on koulutettu”tuhansien GB200 NVL72-sirujen huippuluokan klusteriin”, ja väittää, että se saattaa olla”ensimmäinen julkinen tuotantomalli, joka on koulutettu uudelle GB200-sukupolvelle.”
Laitteiston käyttö kesäkuun alussa, jolloin sen kehittäminen ja laiteohjelmiston kehittäminen vaativat vielä keveämpää terveyttä kypsymättömämpään tiimiin. koulutusjärjestelmät alusta alkaen.
Tämä tehokas laitteisto oli välttämätön intensiivisille vahvistusoppimistekniikoille (RL), joita käytettiin mallin hienosäätämiseen erityisesti nykyaikaiseen ohjelmistosuunnitteluun liittyviin monimutkaisiin, monivaiheisiin tehtäviin.
Vahvistuksen vaikutus
SWE-1.5:n julkaisu tulee omalle mallilleen, joka julkaistaan AI:na. Säveltäjä.
Kahden ilmoituksen välisiä yhtäläisyyksiä on mahdotonta sivuuttaa, ja ne viittaavat selkeään strategiseen lähentymiseen tekoälykehittäjien työkalumarkkinoilla.
Molemmat yritykset omaksuvat massiivisessa mittakaavassa vahvistusoppimista. Cognition käytti VM-hypervisoria nimeltä otterlink suorittaakseen RL-julkaisuja kymmenissä tuhansissa samanaikaisissa, korkean tarkkuuden ympäristöissä, jotka sisältävät koodin suorittamisen ja verkkoselailun.
Tämä menetelmä on hämmästyttävän samanlainen kuin Cursorin kuvaus”sadoista tuhansista samanaikaisista kasvavista sandbox-lähestymistavan koodausympäristöistä”
. usko, että rakentaakseen todella tehokkaan koodausagentin yritysten on hienosäädettävä malleja omien mukautettujen työkalujensa ja todellisten skenaarioidensa mukaan.
Cursor ML-tutkija muotoili tämän strategian ja totesi:”Tässä on nyt pieni määrä älykkyyttä, joka tarvitaan ollakseen tuottava, ja että jos pystyt yhdistämään sen nopeuteen, se ei ole samankaltaisuuden puute
. Sekä Cognition että Cursor ovat olleet salassa uusien malliensa perustan suhteen viitaten vain”johtavaan avoimen lähdekoodin perusmalliin”.
Tämä salassapito vaikeuttaa riippumatonta arviointia ja perustuu siihen, että käyttäjät luottavat yritysten sisäisiin vertailuarvoihin. Varhaiset vaikutelmat ovat kuitenkin positiivisia. Tekoälyasiantuntija ja bloggaaja Simon Willison totesi uutta mallia testattuaan:”Tämä tuntui todella nopealta. Yhteistyö Cerebrasin kanssa johtopäätösten tekemiseksi on erittäin fiksua toimintaa.”