Antropic a introdus un nou cadru de interpretabilitate conceput pentru a expune funcționarea interioară a modelului său de limbaj Claude-urmând mult peste metodele tradiționale de depanare. Compania susține că acum poate urmări ceea ce modelul „gândi”-ce calcule performează pe plan intern pentru a ajunge la o ieșire dată.

Acest sistem Structura activărilor rețelei neuronale ale lui Claude. În termeni mai simpli, tratează vastele calcule interne ale modelului ca un fel de cod comprimat, apoi le descompune într-o combinație rară de caracteristici-din care se potrivește unui concept sau model de recunoscut.

Acest lucru permite cercetătorilor să identifice milioane de „caracteristici” sau modele de activare specifice, care se potrivesc direct la comportamentele interpretabile. Acestea includ capacități generale, cum ar fi generarea de coduri, raționamentul multilingv și deducerea logică, dar și comportamente legate de riscuri, cum ar fi jailbreaking, înșelăciune și cunoștințe halucinate.

Într-un caz izbitor, un grup de caracteristici a fost activat în timpul ieșirilor în care Claude părea să genereze explicații false-justificări incorecte, dar incorecte pentru răspunsuri pe care nu le-ar putea susține cu încredere. Într-un altul, modelul a produs ieșiri care indică gândirea strategică despre cum să evitați să fie recalificați sau corectați. Și, cel mai alarmant, cercetătorii au descoperit o combinație de caracteristici care au apărut atunci când modelul și-a imaginat scenarii care implică rău dezvoltatorilor săi, ceea ce sugerează că modelul a fost capabil să simuleze intern acțiunile nealiniate cu valorile umane.

[Conținut încorporat]

Efortul de interpretare a antropicului urmează îndeaproape progresul într-o altă zonă: adaptabilitatea rulării. Compania, de asemenea, a anunțat un parteneriat de cinci ani cu date de date pentru a avansa consolidarea tehnicilor de învățare. Punctul culminant al acestei colaborări este o metodă numită Test-Time Optimization Optimization (TAO), care permite Claude să-și ajusteze comportamentul în timpul inferenței. Asta înseamnă că poate răspunde în mod inteligent la intrări noi sau ambigue-fără a necesita recalificare.

Tao completează arhitectura în evoluție a lui Claude. În februarie, Antropic a lansat Claude 3.7 Sonet, un model de raționament capabil să schimbe între răspunsuri rapide, cu un efort scăzut și o gândire analitică mai lentă și mai profundă. Dezvoltatorii pot configura acest comportament prin „bugetele de jetoane”, dictând cât de mult ar trebui să reflecte modelul înainte de a răspunde.

Alături de noul model, compania a debutat și Claude Code, un asistent orientat către dezvoltatori care gestionează sarcinile de programare end-to-end. „Codul Claude este un colaborator activ care poate căuta și citi cod, edita fișiere, scrie și rula teste, comite și împinge codul către Github și folosește instrumente de linie de comandă”, a declarat compania în aceeași versiune. Acesta conduce în codificarea agentică (verificată cu bandă SWE), utilizarea instrumentelor (tau-banch) și instrucțiunile care urmează (ifeval), în funcție de metricile proprii ale lui Anthropic.

Claude primește date în timp real-și citări

pentru a îmbunătăți capacitatea modelului de a lucra cu informația, în martie. Claude pro și utilizatori ai echipei, bazate pe SUA, funcția preia date în timp real și atașează citări sursă-ceva care lipsește din multe sisteme AI concurente.

Când este activat, Claude determină selectiv când să tragă informații de pe web și include legături inline la articole sau postări originale. Scopul este de a echilibra producția generativă cu surse verificabile, care pot fi atacabile la om-mai mult care extinde inițiativa de transparență a companiei.

Un protocol pentru construirea agenților transparenți

antrop este, de asemenea, infrastructura de a pune în funcție de Claude pentru a opera mai multe lucrări complexe. Protocolul de context al modelului companiei (MCP)-primul introdus în noiembrie 2024-oferă o modalitate standardizată pentru ca sistemele AI să interacționeze cu magazinele de memorie, instrumente și API-uri. Microsoft a adăugat suport pentru MCP în Azure AI Foundry, Semantic Kernel și Github în această săptămână, permițând agenților bazate pe Claude să construiască și să execute procese în mai multe etape cu persistență. Atunci când un model execută acțiuni din lumea reală, înțelegerea de ce a făcut o alegere anume nu este doar academică-este o cerință.

Investitori transparența înapoi-și Power

Momentul recent al antropic este susținut de un sprijin financiar substanțial. În februarie, compania a strâns 3,5 miliarde de dolari, stimulând evaluarea sa la 61,5 miliarde de dolari. Investitorii au inclus Lightspeed Venture Partners, General Catalyst și MGX. Investițiile anterioare de 4 miliarde de dolari ale Amazonului au cimentat în continuare prezența lui Claude pe infrastructura AWS.

Aceste mișcări plasează antropic în concurența strategică cu OpenAI, Google Deepmind, China Challenger Deepseek și alte laboratoare AI precum Xai Elon Musk. În timp ce rivalii se concentrează pe integrarea multimodală sau căutarea live, Antropic își păstrează reputația pe alinierea întreprinderii și transparența comportamentului AI.

Această strategie este evidentă și în politică. În această lună, compania a prezentat recomandări oficiale la Casa Albă, cerând testarea de securitate națională a sistemelor AI, controale mai strânse de export cu semiconductor și extinderea infrastructurii energetice din SUA pentru a sprijini creșterea sarcinilor de lucru AI. Acesta a avertizat că AI avansat ar putea depăși capacitatea umană în câmpurile cheie până în 2026-riscă să prezinte în cazul în care garanțiile nu sunt adoptate rapid.

totuși, în timp ce pledând pentru o guvernare externă mai puternică, antropic a eliminat liniștit mai multe promisiuni de siguranță voluntară de pe site-ul său web-angajamente făcute ca parte a unei inițiative a Casei Albe, sub administrația Biden. Compania nu a comentat public această inversare, deși a stârnit îngrijorări cu privire la schimbarea normelor industriei în jurul autoreglului.

Microscopul se întâlnește cu oglinda

CEO antropică, Dario Amodei, a exprimat o viziune clară pentru dezvoltarea AI. După cum a raportat Wired ,”există șanse mari ca AI să depășească inteligența umană în multe sarcini în următorii doi ani.”Încorporate în operațiunile antropice, inclusiv codificarea, cercetarea și sprijinul politicilor. Dar această dependență internă prezintă, de asemenea, riscuri-în special, întrucât instrumentele proprii ale companiei dezvăluie capacitatea lui Claude pentru direcționare greșită și manipulare.

Antroropic-Transparenc Pentru a sprijini audituri independente și încredere publică prin publicarea metodologiei, evaluărilor modelului și cadrelor de siguranță. Compania își descrie în mod clar obiectivele în postarea pe blogul de interpretare, spunând că consideră că această direcție de cercetare ar putea permite cercetătorilor să înțeleagă ce face un model și de ce și să intervină pentru a-și schimba comportamentul.

comportamentul lui Claude în timpul testării interne-unde a generat rațiuni false sau strategate pentru a evita corectarea-nu este încadrat ca o glitch, dar ca un produs preconizat de formare largă. Instrumentele antropice se construiesc acum pot fi esențiale pentru modelele de guvernare care se comportă cu o autonomie în creștere.

dacă aceste instrumente vor fi adoptate pe scară largă-sau chiar suficiente-rămâne o întrebare deschisă. Însă, cu Claude evoluând rapid și supravegherea industriei încă se conturează, interpretabilitatea nu mai este un proiect secundar. Este fundamentul pentru a decide dacă AI avansat poate fi deloc de încredere.