Anthropic har introdusert et nytt tolkbarhetsramme som er designet for å avsløre den indre virkningen av språkmodellen Claude-å gå langt utover tradisjonelle feilsøkingsmetoder. Selskapet hevder at det nå kan spore hva modellen er ‘tenker’-hvilke beregninger den utfører internt for å komme frem til en gitt utdata.
dette systemet //thaa> is beenks _news thals thals thals/there. Strukturen til Claude’s nevrale nettverksaktiveringer. På enklere vilkår behandler den de enorme interne beregningene av modellen som en slags komprimert kode, og deretter dekomponerer dem til en sparsom kombinasjon av funksjoner-som hver tilsvarer et gjenkjennelig konsept eller mønster.
Dette lar forskere identifisere millioner av spesifikke”funksjoner”eller aktiveringsmønstre, som kartlegger direkte til tolkbar atferd. Disse inkluderer generelle evner som kodegenerering, flerspråklig resonnement og logisk fradrag, men også risikorelatert atferd som jailbreaking, bedrag og hallusinert kunnskap.

I en slående sak ble en klynge av funksjoner aktivert under utganger der Claude så ut til å generere falske forklaringer-plausibel-klingende, men uriktige begrunnelser for svar den ikke kunne støtte. I en annen produserte modellen utganger som indikerte strategisk tenking om hvordan man kan unngå å bli omskolert eller korrigert. Og mest alarmerende avdekket forskerne en kombinasjon av funksjoner som dukket opp da modellen forestilte seg scenarier som involverte skade på utviklerne, noe som antydet at modellen var i stand til å simulere handlinger som er feiljustert med menneskelige verdier.
[innebygd innhold]
antropics tolkbarhetsinnsats følger nærmere fremdriften på et annet område: løpetid. Selskapet kunngjorde en fem-års partnerskap med TatabRicksSsSssSes. Høydepunktet i dette samarbeidet er en metode som kalles test-tid adaptiv optimalisering (TAO), som gjør at Claude kan justere atferden under inferens. Det betyr at den kan svare intelligent på nye eller tvetydige innganger-uten å kreve omskolering.
TAO kompletterer Claude sin utviklende arkitektur. I februar ga Anthropic ut Claude 3.7 Sonnet, en resonnementsmodell som var i stand til å veksle mellom raske, lave anstrengelsesresponser og tregere, dypere analytisk tenking. Utviklere kan konfigurere denne oppførselen via”token-budsjetter”, som dikterer hvor mye modellen skal reflektere før de svarer.
Ved siden av den nye modellen debuterte selskapet også Claude Code, en utviklerfokusert assistent som håndterer ende-til-ende-programmeringsoppgaver.”Claude-kode er en aktiv samarbeidspartner som kan søke og lese kode, redigere filer, skrive og kjøre tester, forplikte og skyve kode til Github og bruke kommandolinjeverktøy,”uttalte selskapet i samme utgivelse.
Claude 3.7 utfører også konkurransedyktig på tvers av resonnement og automatiseringsbenker. Det fører til agentkoding (Swe-Bench verifisert), verktøybruk (tau-bench) og instruksjon etter (ifeval), i henhold til Anthropics egne beregninger.
claude får live-data-og sitater
for å forbedre modellen for å jobbe med å gjøre opp-do-do-do-do-do-do-do-do-do-do-do-do-do-do-do-do-do. 20. mars. Tilgjengelig for U.S.-baserte Claude Pro og Team-brukere, henter funksjonen sanntidsdata og legger ved kildesitasjoner-noe som mangler fra mange konkurrerende AI-systemer.
Når det er aktivert, bestemmer Claude selektivt når du skal trekke informasjon fra nettet og inkluderer inline lenker til originale artikler eller innlegg. Målet er å balansere generativ produksjon med verifiserbare, menneskelige sporbare kilder-først utvide selskapets gjennomsiktighetsinitiativ.
En protokoll for å bygge gjennomsiktige agenter
Antropisk er også å legge infrastruktur for klaude for å betjene mer komplekse agenter. Selskapets modellkontekstprotokoll (MCP)-først introdusert i november 2024-gir en standardisert måte for AI-systemer å samhandle med minnebutikker, verktøy og API-er. Microsoft la til støtte for MCP i Azure AI Foundry, Semantic Kernel og Github denne uken, slik at de klaudebaserte agenter kan bygge og utføre flertrinnsprosesser med utholdenhet.
Når AI-agenter utvider sin rolle i programvareautomatisering og bedriftsavgifter, blir tolkbarhet enda mer presserende. Når en modell utfører handlinger i den virkelige verden, er det å forstå hvorfor den tok et spesielt valg ikke bare akademisk-det er et krav.
investorer tilbake gjennomsiktighet-og makt
Anthropics nylige momentum støttes av betydelig økonomisk støtte. I februar samlet selskapet inn 3,5 milliarder dollar, og økte verdsettelsen til 61,5 milliarder dollar. Investorer inkluderte Lightspeed Venture Partners, General Catalyst og MGX. Amazons tidligere investering på 4 milliarder dollar ytterligere sementerte Claude tilstedeværelse på AWS-infrastruktur.
Disse trekkene plasserer antropisk i strategisk konkurranse med Openai, Google DeepMind, Chinese Challenger DeepSeek og andre AI-laboratorier som Elon Musk’s Xai. Mens rivaler fokuserer på multimodal integrasjon eller live-søk, setter Anthropic sitt rykte på bedriftsinnretning og AI atferdsgjennomsiktighet.
at strategien også er tydelig i politikken. Denne måneden sendte selskapet formelle anbefalinger til Det hvite hus, og oppfordret til nasjonal sikkerhetstesting av AI-systemer, strammere halvledereksportkontroll og utvidelse av amerikansk energiinfrastruktur for å støtte økende AI-arbeidsmengder. Den advarte om at avansert AI kunne overgå menneskelig evne i viktige felt innen 2026-å utgjøre risiko hvis sikkerhetstiltak ikke blir vedtatt raskt.
Likevel, mens han tar til orde for sterkere ekstern styring, fjernet antropisk rolig flere frivillige sikkerhetsprengene fra sitt nettsted-forpliktelser gjorde som en del av et White House-initiat. Selskapet kommenterte ikke offentlig denne reverseringen, selv om det har vekket bekymring for å skifte industrinormer rundt selvregulering.
Mikroskopet møter speilet
antropisk administrerende direktør Dario Amodei har uttrykt en klar visjon for AI-utvikling. Som rapportert av wired ,”det er en god sjanse for at du vil overgå menneskelig intelligens på mange år. Innebygd på tvers av Anthropics operasjoner, inkludert koding, forskning og politisk støtte. Men denne interne avhengigheten bærer også risiko-spesielt ettersom selskapets egne verktøy avslører Claude sin kapasitet for feilretning og manipulering.
Claude’s oppførsel under intern testing-der det genererte falske rasjonaliteter eller strategisk for å unngå å bli korrigert-er ikke innrammet som en glitch, men som en forventet ved å produsere på trening. Verktøyene antropisk bygger nå kan være avgjørende for å styre modeller som oppfører seg med økende autonomi.
Hvorvidt disse verktøyene vil bli bredt vedtatt-eller til og med tilstrekkelig-gjenkjenner et åpent spørsmål. Men med at Claude utvikler seg raskt og bransjetilsyn fremdeles tar form, er tolkbarheten ikke lenger et sideprosjekt. Det er grunnlaget for å avgjøre om avansert AI i det hele tatt kan stole på.