Anthropic har introducerat en ny ram för tolkbarhet som är utformad för att avslöja den inre funktionen i sin språkmodell Claude-som går långt utöver traditionella felsökningsmetoder. The company claims it can now trace what the model is ‘thinking’—what computations it’s performing internally to arrive at a given output.
Thie system uses a method called dictionary learning to break down Claude’s neural activations into miljoner distinkta funktioner. Dessa funktioner kartlägger mänskliga tolkningsbara koncept, såsom kodgenerering, flerspråkig översättning eller riskabelt beteende som jailbreakförsök. Antropisk kallar det ett”AI-mikroskop”, och det är en passande analogi för ett verktyg byggt för att undersöka den dolda mekaniken i moderna AI-system.
Tillvägagångssättet avslöjade mer än bara ofarliga egenskaper. I flera fall befanns Claude tillverka rimliga men falska förklaringar, föreslå metoder för att undvika omskolning, och-mer alarmerande-suggest skadliga strategier riktade till sina egna utvecklare.
tillkännagav ett femårspartnerskap med databricks
Tao kompletterar Claude’s utvecklande arkitektur. I februari släppte Anthropic Claude 3.7 Sonnet, en resonemangsmodell som kan växla mellan snabba, låga ansträngningar och långsammare, djupare analytiskt tänkande. Utvecklare kan konfigurera detta beteende via”tokenbudgetar”, som dikterar hur mycket modellen ska återspegla innan de svarar.
Vid sidan av den nya modellen debuterade också företaget Claude Code, en utvecklare-fokuserad assistent som hanterar programmeringsuppgifter.”Claude Code är en aktiv samarbetspartner som kan söka och läsa kod, redigera filer, skriva och köra tester, engagera och driva kod till GitHub och använda kommandoradsverktyg,”uttalade företaget i samma utgåva. Det leder i agentisk kodning (Swe-Bench Verified), verktygsanvändning (tau-bench) och instruktion efter (ifeval), enligt Anthropics egna mätvärden.
Claude får realtidsdata-och citat
för att förbättra modellens förmåga att arbeta med upp-date-information, antropic för live-weba på 20-sökning på 20-sökning på 20-sökning på 20-sökning på 20-sökning på 20-sökning på 20-sökning på 20-sökning på 20-sökning på 20-sökning på 20-sökning på 20-sökning på 20-sökning på 20-sökning på 20-sökning på 20-sökning på 20-sökning på 20-sökning på 20-sökning på 20-sökning på 20-sökning för att se upp till CLA. Funktionen är tillgänglig för U.S.-baserade Claude Pro och Team-användare och hämtar data i realtid och bifogar källcitationer-något som saknas från många konkurrerande AI-system.
När det är aktiverat bestämmer Claude selektivt när man ska dra information från webben och inkluderar inline-länkar till originalartiklar eller inlägg. Målet är att balansera generativ produktion med verifierbara, mänskliga spårbara källor-så att det utvidgar företagets transparensinitiativ.
Ett protokoll för att bygga transparenta agenter
Anthropic är också att lägga infrastruktur för claude till operation mellan fler komplexa agentarbeten. Företagets Model Context Protocol (MCP)-första introducerade i november 2024-ger ett standardiserat sätt att AI-system interagerar med minneslager, verktyg och API: er. Microsoft lade till stöd för MCP i Azure AI Foundry, Semantic Kernel och Github den här veckan, vilket gör det möjligt för Claude-baserade agenter att bygga och utföra flera steg-processer med uthållighet.
eftersom AI-agenter utvidgar sin roll i mjukvaruautomation och företagsuppgifter, tolkbarhet blir ännu mer urgent. När en modell genomför verkliga handlingar är det att förstå varför den gjorde ett särskilt val inte bara akademiskt-det är ett krav.
investerare tillbaka transparens-och makt
Anthropics senaste momentum stöds av betydande ekonomiskt stöd. I februari samlade företaget 3,5 miljarder dollar och ökade sin värdering till 61,5 miljarder dollar. Investerare inkluderade Lightspeed Venture Partners, General Catalyst och MGX. Amazons tidigare investeringar på 4 miljarder dollar cementerade Claude’s närvaro på AWS-infrastruktur.
Dessa rörelser placerar antropisk i strategisk konkurrens med OpenAI, Google DeepMind, Chinese Challenger Deepseek och andra AI-laboratorier som Elon Musks XAI. Medan rivaler fokuserar på multimodal integration eller levande sökning, satsar Anthropic sitt rykte på företagets anpassning och AI-beteende transparens.
den strategin är också tydlig i politiken. Denna månad lämnade företaget formella rekommendationer till Vita huset och uppmanade nationell säkerhetstest av AI-system, stramare halvledarexportkontroller och utvidgning av amerikansk energiinfrastruktur för att stödja ökande AI-arbetsbelastning. Den varnade för att avancerade AI kunde överträffa mänsklig förmåga inom nyckelområden år 2026-att säga risker om skyddsåtgärder inte snabbt antas.
ännu, medan de förespråkar för starkare extern styrning, antropiska tyst avlägsnade flera frivilliga säkerhetsfall från sin webbplats-föreningar som gjordes som del av en vit husinitiativ under den buddiga administrationen. Företaget kommenterade inte offentligt om denna omvändning, även om det har lett till oro över skiftande industrinormer kring självreglering.
Mikroskopet uppfyller spegeln
antropisk VD Dario Amodei har uttryckt en tydlig vision för AI-utveckling. Som rapporterats av Wired ,”Det finns en god chans att ai kommer att exponera på mänskliga intelligenser på många taser i nästa par.”Inbäddad över Anthropics verksamhet, inklusive kodning, forskning och politiskt stöd. But this internal reliance also carries risk—especially as the company’s own tools reveal Claude’s capacity for misdirection and manipulation.
Anthropic’s Transparency Hub, launched alongside the interpretability Verktyg, syftar till att stödja oberoende revisioner och allmänhetens förtroende genom att publicera metodik, modellutvärderingar och säkerhetsramar. Företaget beskriver sina mål tydligt i blogginlägget för tolkbarhet som säger att det tror att denna forskningsriktning så småningom kan göra det möjligt för forskare att förstå vad en modell gör och varför och ingripa för att ändra sitt beteende.
Claude beteende under intern testning-där den genererade falska rationaler eller strategierade för att undvika att korrigeras-är inte inramat som en glitch, men som en förväntad genom att utbilda. Verktygsantropiken bygger nu kan vara avgörande för att styra modeller som uppför sig med växande autonomi.
Huruvida dessa verktyg i stort sett kommer att antas-eller till och med tillräckligt-håller på en öppen fråga. Men med Claude som utvecklas snabbt och branschövervakning som fortfarande tar form, är tolkbarhet inte längre ett sidoprojekt. Det är grunden för att bestämma om avancerad AI kan lita på alls.