antropia on ottanut käyttöön uuden tulkittavuuskehyksen, joka on suunniteltu paljastamaan kielimallinsa sisäinen toiminta-ylittää kauas perinteiset virheenkorjausmenetelmät. Yhtiö väittää, että se voi nyt jäljittää, mitä malli ajattelee-mitä laskelmia se suorittaa sisäisesti saavuttaakseen annetun tulosteen.
Tämä järjestelmä
Tämä antaa tutkijoille mahdollisuuden tunnistaa miljoonat erityiset “ominaisuudet”tai aktivointimallit, jotka kartoittavat suoraan tulkittavissa oleviin käyttäytymisiin. Näitä ovat yleiset ominaisuudet, kuten koodin luominen, monikielinen päättely ja looginen vähennys, mutta myös riskiin liittyviä käyttäytymisiä, kuten jailbreaking, petos ja hallusinoitu tieto.

Yhdessä silmiinpistävässä tapauksessa ominaisuuksien klusteri aktivoitiin tulosten aikana, joissa Claude näytti tuottavan vääriä selityksiä-kuuluvaa kuulostavia, mutta vääriä perusteluja vastauksille, joita se ei pystynyt tukemaan luottavaisesti. Toisessa malli tuotti tuotoksia, jotka osoittavat strategisen ajattelun siitä, kuinka välttää uudelleenkouluttamista tai korjaamista. Ja kaikkein hälyttävästi, tutkijat paljastivat yhdistelmän piirteitä, jotka ilmestyivät, kun malli kuvitteli skenaarioita, jotka koskivat sen kehittäjille haittaa, mikä viittaa siihen, että malli kykenee simuloimaan inhimillisten arvojen väärinkäytöksiä. Yhtiö myös ilmoitti viiden vuoden kumppanuudesta tietokanta TO-ennakkomaksujen oppitekniikoiden kanssa. Yhteistyön kohokohta on menetelmä, jota kutsutaan testiajan mukautuvalle optimoinnille (TAO), jonka avulla Claude voi säätää käyttäytymistään päätelmien aikana. Tämä tarkoittaa, että se voi reagoida älykkäästi uusiin tai epäselviin panoksiin-ilman uudelleenkoulutusta.
tao täydentää Clauden kehittyvää arkkitehtuuria. Helmikuussa Antropic vapautti Claude 3.7 Sonnetin, päättelymallin, joka pystyy vaihtamaan nopean, matalan taivan vasteen ja hitaamman, syvemmän analyyttisen ajattelun välillä. Kehittäjät voivat määrittää tämän käyttäytymisen “merkkibudjettien”avulla sanelemalla, kuinka paljon mallin tulisi heijastaa ennen vastausta.
Uuden mallin rinnalla yritys debytoi myös kehittäjäkeskeisen avustajan Claude Code-sovelluksen, joka käsittelee päättymiskäyttöön tarkoitettuja ohjelmointitehtäviä. “Claude-koodi on aktiivinen yhteistyökumppani, joka pystyy etsimään ja lukemaan koodia, muokkaamaan tiedostoja, kirjoittamaan ja suorittamaan testejä, sitoutumaan ja työntämään koodin GitHubiin ja käyttämään komentorivityökaluja”, yritys totesi samassa julkaisussa. Se johtaa agentiseen koodaukseen (Swe-Bench varmennettu), työkalujen käyttöön (tau-bench) ja ohjeisiin (ifeval) antropian omien mittareiden mukaan. USA: n perustuvien Claude Pro-ja Team-käyttäjien saatavana ominaisuus hakee reaaliaikaiset tiedot ja liittää lähdeviittaukset-jotain puuttuu monista kilpailevista AI-järjestelmistä.
Kun Claude on käytössä, Claude määrittelee valikoivasti, milloin vetää tietoja verkosta ja sisältää inline-linkit alkuperäisiin artikkeleihin tai viesteihin. Tavoitteena on tasapainottaa generatiivinen tuotos todennettavissa olevilla, ihmisen jäljitettävissä olevilla lähteillä-edistämällä yrityksen läpinäkyvyysaloitteen laajentamista.
Protokolla läpinäkyvien aineiden rakentamiseksi
antropia on myös infrastruktuuria Claudelle toimimaan monimutkaisemmilla aineilla. Yrityksen malliyhteysprotokolla (MCP)-ensimmäinen marraskuussa 2024 esitelty-tarjoaa standardisoidun tavan AI-järjestelmille olla vuorovaikutuksessa muistivarastojen, työkalujen ja sovellusliittymien kanssa. Microsoft lisäsi tukea Azure AI-valtimoissa, semanttisessa ytimessä ja GitHubissa tällä viikolla, jolloin Claude-pohjaiset edustajat voivat rakentaa ja suorittaa monivaiheisia prosesseja pysyvyyden kanssa.
, kun AI-agentit laajentavat rooliaan ohjelmisto-automaatio-ja yritystehtävissä, tulkittavuudesta tulee vielä kiireellisempi. Kun malli suorittaa reaalimaailman toimenpiteitä, ymmärrys, miksi se teki tietyn valinnan, ei ole vain akateemista-se on vaatimus.
sijoittajat takaisin avoimuus-ja Power
antropisin äskettäinen vauhti tukee huomattava taloudellinen tuki. Helmikuussa yritys keräsi 3,5 miljardia dollaria, mikä nosti arvonsa 61,5 miljardiin dollariin. Sijoittajia olivat Lightspeed Venture Partners, General Catalyst ja MGX. Amazonin aikaisempi 4 miljardin dollarin sijoitus sementoi edelleen Clauden läsnäolon AWS-infrastruktuurissa. Vaikka kilpailijat keskittyvät multimodaaliseen integrointiin tai live-hakuun, antropinen panee maineensa yritysten linjaamiseen ja AI-käyttäytymisen läpinäkyvyyteen.
Strategia näkyy myös politiikassa. Tässä kuussa yritys lähetti muodolliset suositukset Valkoiselle talolle, kehottaen AI-järjestelmien kansallista turvallisuustestausta, tiukemman puolijohteiden vientivalvontaa ja Yhdysvaltain energiainfrastruktuurin laajentamista lisäämään AI-työmääriä. Se varoitti, että edistyksellinen AI voisi ylittää ihmisen kyvyn avainaloilla vuoteen 2026 mennessä-riskien aiheuttaminen, jos suojatoimenpiteitä ei toteuteta nopeasti.
, vaikka puolustaessaan vahvempaa ulkoista hallintaa, antropinen poisti hiljaa useita vapaaehtoisia turvallisuusluetteloita sen verkkosivustosta-kommumitisoitina tehdyt osana Bid-hallintoa. Yhtiö ei kommentoinut julkisesti tätä kääntymistä, vaikka se on herättänyt huolta teollisuuden normien siirtämisestä itsesääntelyn ympärillä. Kuten johdolla , “On hyvät mahdollisuudet, että AI ylittää ihmisen älykkyyden, että jo vuosien parissa.”Antropisin toimintojen, mukaan lukien koodaus, tutkimus ja politiikan tuki, upotettu. Mutta tämä sisäinen luottamus kantaa myös riskiä-etenkin kun yrityksen omat työkalut paljastavat Clauden kyvyn väärään suuntautumiseen ja manipulointiin.
Claude’n käyttäytyminen sisäisen testauksen aikana-missä se aiheutti vääriä perusteita tai strategisia välttääkseen korjaamisen suurten mallien odotettavissa oleviksi. Antropinen työkalut ovat nyt välttämättömiä malleille, jotka käyttäytyvät kasvavan autonomian avulla.
käytetäänkö näitä työkaluja laajasti-vai jopa riittävät-ovat avoin kysymys. Mutta kun Claude kehittyy nopeasti ja teollisuuden valvonta on edelleen muotoutumassa, tulkittavuus ei ole enää sivuprojekti. Se on perusta päättää, voidaanko edistyneestä AI: stä luottaa ollenkaan.