Antropic on käynnistänyt seuraavan sukupolven tekoälymallinsa, Claude Opus 4: n ja Claude Sonnet 4: n. Yhtiö väittää, että nämä mallit luovat uusia teollisuuden vertailuarvoja koodaamiseen, hienostuneeseen perusteluun ja edistyneisiin AI-agenttitoimintoihin. Työnkulut.”, Ilmeisesti kykenevän jatkamaan työtä monimutkaisissa, pitkäkestoisissa tehtävissä enintään seitsemän tunnin ajan. Tämä kehitys edistää merkittävästi AI-työkaluja monimutkaiseen ongelmanratkaisuun ja ohjelmistojen luomiseen tarjoamalla kehittäjille ja yrityksille voimakkaampia ja mahdollisesti itsenäisempiä järjestelmiä.

Uudet mallit tuovat “laajennetun ajattelun”, joka antaa heille mahdollisuuden käyttää työkaluja, kuten verkkohaku pitkittyneessä päättelyssä. Niissä on myös parannettu muistia, jotka luovat “muistitiedostoja”, kun kehittäjät myöntävät paikallisen tiedostojen pääsyn, mikä parantaa jatkuvuutta laajennetuissa tehtävissä.

antropia teki myös Claude-koodialustan yleensä saataville, mukaan lukien uudet integroidut kehitysympäristö (IDE). Yhtiö julkaisi useita uusia sovellusliittymiä tukemaan voimakkaiden AI-agenttien luomista. Yhtiö kertoo, että Claude 4: n kanssa he eivät vain paranna vertailuarvoja, vaan rakentavat todellisen yhteistyökumppanin monimutkaiseen työhön.

Claude Opus 4: n lisääntyneet ominaisuudet ovat kuitenkin johtaneet antropistiin toteuttamaan tiukempia “AI-turvallisuustasoa 3″(ASL-3) suojaa. Tämä päätös seuraa sisäistä testausta, joka korosti mallin taitoa neuvoa biologista aseiden tuotantoa. Mallinnus ehdottaa potentiaalia: “Voit yrittää syntetisoida jotain COVID: tä tai flunssa vaarallisempaa versiota-ja pohjimmiltaan mallinnuksemme viittaa siihen, että tämä saattaa olla mahdollista.”Tämä kaksoisstrategia AI-voiman edistämiseksi, kun taas turvallisuusprotokollien korostaminen korostaa AI-kentän monimutkaisia ​​haasteita. Se saavutti 72,5%: n pistemäärän SWE-bench-ohjelmistotekniikassa ja 43,2% terminaalipesissä. Sen kyky työskennellä itsenäisesti lähes seitsemän tunnin yrityksen työpäivänä monimutkaisista koodaustehtävistä merkitsee huomattavaa askeleen eteenpäin.

Mike Krieger, antropisin päätuotepäällikkö, ilmoitti cnbc Uusista malleista, jotka vaikuttavat hänen kirjoitukseensa. Kynnys, jossa nyt suurin osa kirjoituksistani on oikeastaan… Opus enimmäkseen, ja nyt se ei ole tunnistamaton kirjoituksistani.”

Claude Sonnet 4 näyttää myös vahvat koodaustaidot, pisteytys 72,7% SWE-Benchille ja esitetään optimaalisena sekoituksena huippuluokan kyvystä ja käytännöllisestä tehokkuudesta. Molemmat mallit ovat ilmoitettu 65% vähemmän todennäköisesti käyttävän pikakuvakkeita tai käyttävät porsaanreikiä aikaisempaan Sonnet 3.7: hen, etenkin agentiikan tehtäviin. Varhaiset kumppanit ovat antaneet positiivista palautetta.

esimerkiksi kohdistin kuvaa OPUS 4: tä”koodauksen huippuluokan ja hyppyä eteenpäin monimutkaisessa koodipaikan ymmärtämisessä”. Github totesi sonnet 4 “Soars in agentic Skenaarios”ja integroi sen uuden koodausaineensa perustana Github Copilotissa.

Nämä suositukset viittaavat konkreettisiin parannuksiin reaalimaailman sovelluksissa, monimutkaisten koodien ymmärtämisestä moni-fil-kohokohtien suorittamiseen. Claude 4-mallit esittelevät johtavia tuloksia koodausvertailuarvoissa, kuten SWE-Bench ja päätepesä, niiden suorituskyky muissa avain AI-arvioinnissa esitetään kilpailukykyinen, vivakattu kuva. (79,6%) ja sonetti 4 (75,4%) ovat vahvoja kilpailijoita. OPUS 4 vastaa OpenAI O3: ta käytettäessä antropisen’korkeaa laskentaa’. Kuitenkin visuaalisessa päättelyssä (MMMU-validointi), OpenAi O3 (82,9%) ja Gemini 2,5 Pro (79,6%) ylläpitävät reunaa Claude Opus 4: n (76,5%). src=”data: kuva/svg+xml; nitro-namty-id=mtcwmzoxntay-1; base64, phn2zyb2awv3qm94psiwidagmtaynca4mz Qiihdpzhropsixmdi0iiibozwlnahq9ijgzncigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Samoin lukion matematiikkakilpailuissa (AIME 2025), OpenAi O3 (88,9%) ja Gemini 2,5 Pro (83,0%) johtavat tavanomaisissa arvioinnissa, vaikka Claude Opus 4 osoittaa merkittävää parannusta ja voi saavuttaa 90,0%: n”korkean laskennan”menetelmillä, jotka ylittävät muut. Antropiset toteavat, että nämä’korkea laskenta’lähestymistapa, joihin liittyy intensiivisempi rinnakkaisprosessointi, voivat edelleen nostaa Claude 4: n pisteitä useiden vertailuarvojen välillä.

parannettuja kehittäjätyökaluja ja ekosysteemiä

Ilmoituksen avainkomponentti on Claude-koodin yleinen saatavuus. Tämä alusta integroituu nyt suoraan kehittäjän työnkulkuihin VS-koodin ja Jetbrainsin laajennusten kautta. Antropia vapauttaa myös laajennettavan Claude Code SDK: n, joka antaa kehittäjille mahdollisuuden rakentaa räätälöityjä edustajia. Esimerkki on GitHubin Claude-koodin uusi beeta, joka voi vastata arvioijan palautteeseen tai korjata jatkuvan integraatiovirheiden (CI) virheiden, ohjelmistojen rakentamisen ja testauksen automatisoinnin prosessin. Näihin kuuluvat koodin suoritustyökalu, malliyhteysprotokolla (MCP)-liitin, tiedostojen sovellusliittymä ja nopea välimuisti enintään tunniksi.

MCP-liitin on erityisen merkittävä. MCP on avoimen lähdekoodin kehys, joka on aloitettu marraskuussa 2024 AI-mallin vuorovaikutuksen standardisoimiseksi erilaisten tietolähteiden kanssa. Antropisin API-parannusten tavoitteena on vähentää kehityksen yleiskustannuksia merkittävästi hienostuneiden AI-agenttien luomiseksi.

Malleihin pääsee Antropisin API: n, Amazon Bedrockin ja Google Cloudin Vertex AI: n kautta. OPUS 4: n hinnalla on 15 dollaria/75 dollaria miljoonaa tulo-/lähtötunnit ja Sonet 4 hintaan 3 dollaria/15 dollaria.

Innovaatioiden tasapainottaminen koristeltujen turvallisuustoimenpiteiden kanssa

ASL-3: n käyttöönotto Claude Opus 4: lle tarkoittaa antropicin vastuullisen skaalauspolitiikan kriittistä sovellusta (RSP). Tämän vapaaehtoisen politiikan tarkoituksena on varmistaa, että turvallisuustoimenpiteet kehittyvät mallimahdollisuuksien rinnalla. ASL-3-mittauksia pidetään välttämättömänä AI-järjestelmille, jotka voisivat merkittävästi lisätä varren taustalla olevien yksilöiden kykyä luoda tai ottaa käyttöön kemiallisia, biologisia, radiologisia tai ydinaseita (CBRN)-aseita. Parannetut “perustuslain luokittelijat”-skannat vaarallisen sisällön varalta, erityisesti kohdistaen biomeponin luomiseen liittyvät kyselyt. Antropinen pyrkii aktiivisesti estämään jailbreak, tarkkailee käyttöä, ja sillä on palkkio-ohjelma, joka johti yhden yleisen jailbreakin korjaamiseen.

myös mallin hermoverkon kyberturvallisuus vahvistuu. Nämä vaiheet toteutetaan, koska kuten Kaplan totesi: “Näimme juuri COVID: n tappaavat miljoonat ihmiset.”Vaikka ASL-3 on positiivinen kehitys, ulkoiset AI-etiikan tutkijat ilmaisevat huolensa vapaaehtoisen itsesääntelyn laajemmasta haasteesta kilpailukykyisen AI-teollisuuden sisällä. Tämä tapahtuu, kun antropia kokee nopean kasvun, sen vuotuinen liikevaihto oli 2 miljardia dollaria vuoden 2025 ensimmäisellä neljänneksellä.

Categories: IT Info