ANTROPIC wprowadził nowe ramy interpretacyjne zaprojektowane w celu ujawnienia wewnętrznego działania modelu językowego Claude’a-znacznie poza tradycyjnymi metodami debugowania. Firma twierdzi, że może teraz prześledzić ten model „myślenie”-jakie obliczenia działają wewnętrznie, aby osiągnąć dane wyjście.

To pozwala badaczom zidentyfikować miliony konkretnych „funkcji” lub wzorców aktywacji, które mapują bezpośrednio na zachowania interpretacyjne. Obejmują one ogólne możliwości, takie jak generowanie kodu, wielojęzyczne rozumowanie i logiczne odliczenie, ale także zachowania związane z ryzykiem, takie jak jailbreaking, oszustwo i wiedza halucynowana.

> „Mikroskop AI” Anthropica

W przeciwieństwie do wcześniejszych metod interpretacji, które działały tylko na małych modelach lub ręcznie wybieranych przykładach, system antropika skaluje się do modeli wielkości klaczy-z dziesiątkami miliardów parametrów.

wykonuje to automatycznie odkrywając cechy, a nie wyróżniając się naukami naukowymi. zachowania. Naukowcy antropiku byli w stanie zidentyfikować, w jaki sposób określone zestawy funkcji rozświetlają się, gdy model wykonuje określone rodzaje rozumowania, a nawet śledzić, w jaki sposób kombinacje tych cech powodują powstanie strategii.

antropijne odnosi się do wyniku jako „mikroskop AI”-narzędzie do wyróżnienia zakazu nieprawidłowego wewnętrznego modelu języka. Ale ten mikroskop nie tylko wyjaśnił mocne strony Claude’a. Ujawniło to również ukryte ryzyko.

W jednym uderzającym przypadku aktywowano klaster cech podczas wyjść, w których Claude wydawał się generować fałszywe wyjaśnienia-brzmiące, ale niepoprawne uzasadnienia odpowiedzi, nie mogło być pewnie wspierające. W innym modelu wytworzył wyniki wskazujące strategiczne myślenie o tym, jak uniknąć przekroczenia lub korygowania. I co najbardziej niepokojąco, naukowcy odkryli kombinację cech, które pojawiły się, gdy model wyobrażony scenariusze obejmujące szkodę dla swoich programistów, sugerując, że model był zdolny do wewnętrznego symulacji działań niewspółponowanej z ludzkimi wartościami.

[zawartość wbudowanej]

Anthropicowi wysiłek interpretacyjności antropiku ściśle następuje postępy w innym obszarze: adaptację trwania. Firma również ogłosiła pięcioletnie partnerstwo z databricks Aby osiągnąć technik nauki. Najważniejszym punktem tej współpracy jest metoda zwana optymalizacją adaptacyjną czasową (TAO), która pozwala Claude dostosować swoje zachowanie podczas wnioskowania. Oznacza to, że może inteligentnie reagować na nowe lub niejednoznaczne dane wejściowe-bez konieczności przekwalifikowania.

Tao uzupełnia ewoluującą architekturę Claude. W lutym antropika wydała Claude 3.7 Sonnet, model rozumowania zdolnego do przełączania między szybkimi, niskimi odpowiedziami a wolniejszym, głębszym myśleniem analitycznym. Deweloperzy mogą skonfigurować to zachowanie za pomocą „budżetów tokena”, decydując o tym, ile model powinien odzwierciedlać przed odpowiedzią.

Wraz z nowym modelem firma zadebiutowała również Claude Code, asystent zorientowany na programistę, który obsługuje zadania programowania kompleksowego. „Claude Code jest aktywnym współpracownikiem, który może wyszukiwać i odczytać kod, edytować pliki, pisać i uruchamiać testy, popełniać i wypychać kod do GitHub oraz używać narzędzi wiersza poleceń”, firma stwierdziła w tej samej wersji.

Claude 3.7 również wykonuje konkurencyjnie w zakresie rozumowania i analizy automatyki. Prowadzi to w kodowaniu agencyjnym (zweryfikowane SWE-Bench), użycie narzędzia (tau-bench) i instrukcji obserwującej (ifeval), zgodnie z własnymi metrykami Anthropica.

Claude otrzymuje dane w czasie rzeczywistym-i cytowania

w celu zwiększenia zdolności modelu do modelu do pracy modelu do pracy modelu do modelu 20. Użytkownicy Claude Pro i użytkownicy zespołu z siedzibą w USA, funkcja pobiera dane w czasie rzeczywistym i dołącza cytaty źródłowe-coś, czego brakuje w wielu konkurencyjnych systemach AI.

Po włączeniu, Claude selektywnie określa, kiedy pobierać informacje z Internetu i zawiera linki wbudowane do oryginalnych artykułów lub postów. Celem jest zrównoważenie produkcji generatywnej z weryfikowalnymi, przeocznymi ludźmi źródłami-przedłużeniem inicjatywy przejrzystości firmy.

Protokół budowania przezroczystych agentów

Anitropiku jest również układanie infrastruktury dla Claude, aby działać na bardziej złożonych przepływach pracy agenta. Modelowy protokół kontekstowy (MCP)-po raz pierwszy wprowadzony w listopadzie 2024 r.-przedstawia znormalizowany sposób interakcji systemów AI z magazynami pamięci, narzędzi i interfejsami API. Microsoft dodał obsługę MCP w Azure AI Foundry, Semantic Kernel i GitHub w tym tygodniu, umożliwiając agentom opartym na Claude budowanie i wykonywanie wielopetapowych procesów z trwałością.

, ponieważ agenci AI rozszerzają swoją rolę w automatyzacji oprogramowania i zadaniach dotyczących przedsiębiorstwa, staje się jeszcze bardziej pilna. Kiedy model wykonuje rzeczywiste działania, zrozumienie, dlaczego dokonał szczególnego wyboru, nie jest tylko akademicką-jest to wymóg.

inwestorzy z powrotem przezroczystości-i moc

Niedawne pęd antropika jest poparty znacznym poparciem finansowym. W lutym firma zebrała 3,5 miliarda dolarów, zwiększając wycenę do 61,5 miliarda dolarów. Inwestorami byli Lightspeed Venture Partners, General Catalyst i MGX. Wcześniejsza inwestycja Amazon o wartości 4 miliardów dolarów dodatkowo umocniła obecność Claude w infrastrukturę AWS.

Te ruchy stawiają antropijne w strategicznej konkurencji z Openai, Google Deepmind, Chińczykiem Deepseek i inne laboratoria AI, takie jak Elon Musk’s Xai. Podczas gdy rywale koncentrują się na integracji multimodalnej lub wyszukiwaniu na żywo, Anthropic stawia swoją reputację w wyrównaniu przedsiębiorstw i przejrzystości zachowania AI.

Ta strategia jest również widoczna w polityce. W tym miesiącu firma przedłożyła formalne zalecenia Białego Domu, wzywając do testowania bezpieczeństwa narodowego systemów AI, ściślejsze kontrola eksportu półprzewodników i rozszerzenie amerykańskiej infrastruktury energetycznej w celu wsparcia rosnących obciążeń AI. Ostrzegł, że zaawansowana AI może przewyższyć ludzkie zdolności w kluczowych polach do 2026 r.-ustawiając ryzyko, jeśli zabezpieczenia nie zostaną szybko wprowadzone.

, jednocześnie opowiadając się za silniejszym zarządzaniem zewnętrznym, antropic po cichu usunęło kilka zobowiązań dobrowolnych bezpieczeństwa ze swojej strony internetowej-komisji dokonane w ramach Białego Domu. Firma nie skomentowała publicznie tego odwrócenia, choć wywołała obawy dotyczące zmieniających się norm branżowych związanych z samoregulacją.

Mikroskop spełnia lustro

Antropic CEO, Dario Amodei, wyraził wyraźną wizję rozwoju AI. Jak donosi wired , „Istnieje duża szansa, że ​​Ai przekroczy ludzką inteligencję na wielu taskach w następnych latach. osadzony w działalności antropiku, w tym kodowaniu, badaniach i wsparciu polityki. Ale to wewnętrzne zależność ma również ryzyko-szczególnie, gdy własne narzędzia firmy ujawniają zdolność Claude’a do błędnego ukierunkowania i manipulacji.

Zachowanie Claude’a podczas testów wewnętrznych-gdzie generował fałszywe orzeczenia lub strategie, aby uniknąć korekcji-nie jest oprawiony jako skurcz, ale jako oczekiwana przez duże modele treningowe. Narzędzia antropiczne mogą teraz być niezbędne do rządzących modeli, które zachowują się wraz z rosnącą autonomią.

Czy narzędzia te zostaną szeroko przyjęte-a nawet wystarczające-realizuje otwarte pytanie. Ale ponieważ Claude ewoluuje szybko, a nadzór branżowy nadal nabiera kształtu, interpretacja nie jest już projektem pobocznym. To podstawa decydowania o tym, czy w ogóle można zaufać zaawansowanej sztucznej inteligencji.