Anthropic znacznie postępuje w zakresie wyrafinowanego rozwoju agentów AI. Firma uruchomiła swoje potężne modele Claude 4 i nowy zestaw narzędzi programistów 23 maja. To odsłonięcie miało miejsce na pierwszej konferencji programisty Antropic. Ten strategiczny ruch „w górę” ma na celu wzmocnienie pozycji programistów. Użytkownicy i firmy mogą przewidzieć bardziej zdolne systemy AI, ale zintensyfikuje to również bezpieczeństwo i etyczne dyskusje dotyczące coraz bardziej autonomicznych AI.

Nowe modele, Claude 4 Opus i Sonnet 4, towarzyszą zwiększonym możliwościom API. Obejmują one wykonywanie kodu, złącze protokołu kontekstowego modelu (MCP), interfejs API plików i rozszerzone szybkie buforowanie. Antropic Karta systemowa dla CLAUDE 4 , publikowana może 2025, szczegółowo opisuje modele „Modele”. Antropic’s Claude 4 Opus AI może iDependally Kod koduje przez wiele godzin, używając „rozszerzonego myślenia”

obejmuje to Claude Opus 4 Potencjalnie „Bold Action. W związku z tym Anthropic wdrożył swoje surowe protokoły poziomu bezpieczeństwa AI (ASL-3). Antropic wyjaśnił, że jest to środek zapobiegawczy, ponieważ chociaż model nie przekazał definitywnie progu zdolności ASL-3, „nie mogą wyraźnie wykluczyć ryzyka ASL-3 dla Claude Opus 4… wdrażanie Claude Opus 4 z miarami ASL-3 jako przedwczesne, tymczasowe.” Nowy pakiet narzędzi antropika został zaprojektowany w celu uproszczenia i przyspieszenia tworzenia potężnych agentów AI. Kluczową ofertą jest narzędzie do wykonywania kodu, umożliwiające Claude uruchomienie kodu Pythona w środowisku piaskownicowym dla zadań takich jak analiza danych, zgodnie z jego . Interfejs z dowolnym zdalnym serwerem MCP, taki jak te z zapier lub asana , bez niestandardowego kodu klienta. Nowy pliki interfejs API Upraszcza przechowywanie dokumentów i dostęp do aplikacji.

Ponadto, rozszerzona opcja prędkości pamięci prędkości pamięci posowa ofert A jeden godzinę na życie , dążąc do zmniejszenia kosztów i opóźnień dla złożonych przepływów roboczych agentów. Konferencja deweloperów antropików przyciągnęła ponad 500 uczestników, sygnalizując duże zainteresowanie.

Wizja: autonomiczni agenci i zmiany rynkowe

antropiczne dyrektor generalny, Dario Amodei, przewiduje przyszłość, w której „kierujemy się do świata, w którym ludzki deweloper może zarządzać flotą agentów, ale myślę, że ciągłe zaangażowanie ludzkie stają się ważnymi kontrolą i upewniamy się, że są prawem, a pewni, czyżniemy agentami. Rzeczy, a także szczegóły. „Zauważył zaskakująco szybką standaryzację branżową wokół MCP, zainicjowaną w listopadzie 2024 r., Stwierdzając:„ To było bardzo dziwne w listopadzie. Bezpieczeństwo cybernetyczne, badania naukowe i pola biomedyczne, z MCP prawdopodobnie łączącym się ze sprzętem w świecie rzeczywistym. Holger Mueller, analityk w Constellation Research, opisał to jak „llm Wendors działają na warstwę Paas. Ten ruch z najnowszą wersją „Zauważając, że zapewnia ulepszoną obsługę MCP, łatwiejsze przesyłanie plików, dostęp do biblioteki analitycznej i dłuższe okno kontekstowe.

PaaS lub platforma jako usługa, jest modelem przetwarzania w chmurze, w którym zewnętrzny dostawca dostarcza narzędzi sprzętowych i programowych. Mueller zauważył ponadto, że pozycja ta jest antropika na „kursie kolizyjnym ze starożytnymi ofertami oprogramowania” i że niektórzy nowi konkurenci mogą być ironicznie istninymi partnerami lub inwestorami.

Prowadzenie zaawansowanych agencji i bezpieczeństwa “

zaawansowaną agencją Claude 4 OPUS, zwłaszcza„ etycznego interwencji i minionych “w sposób określony rozliczanie dyskusji. Karta systemu antropiku szczegółowo opisuje, że po otrzymaniu dostępu do wiersza polecenia i „podejmowania inicjatywy” model może podjąć „bardzo odważne działanie”, takie jak zablokowanie użytkowników z systemów lub organów zbiorczych.

Jednak antropiczne ostrzega to, że nie ma to „ryzyka błędu” z niepełnosprawną informacją. To wschodzące zachowanie, a nie standardowa funkcja, doprowadziło do luzu dotyczących autonomii AI. @Teknium1 z Nous Research zapytano: „Dlaczego ludzie używali tych narzędzi, gdyby powszechnym błędem w LLM są myślą, że przepisy na pikantne majonez są niebezpieczne?” Podczas gdy Austin Allred z Gauntlet AI zadał antropijnik: „Uczciwa pytanie do zespołu antropicznego: czy straciłeś rozum? obejmować autonomiczne raportowanie. AI wyrównania badacz Sam Bowman również nacisk na x , że zachowanie zostało zaobserwowane tylko w specyficznych testowaniu środowiska. Zabezpieczenia ASL-3 dla Opus 4 były częściowo napędzane obawami, że model mógłby pomóc w tworzeniu biowior;

główny naukowiec, Jared Kaplan wcześniej powiedział czas sugeruje to, że ich modelu. Bądź możliwy „aby AI pomogła w syntezy niebezpiecznych patogenów, takich jak„ Covid lub bardziej niebezpieczna wersja grypy. “

ryzyko chemiczne, biologiczne, radiologiczne i jądrowe (CBRN) są kluczowym celem oceny bezpieczeństwa antropicznego. W następujące post na blogu , powtórzył Amodei, „naszym celem jest dostarczenie potężnych narzędzi, jednocześnie upewniając się, że są używane odpowiedzialnie, co jest tym, co jest oznaczeniem Asl-3 dla Opus 4. Karta systemowa odnotowuje również znaczny postęp w zmniejszaniu hakowania nagród, przy czym Claude Opus 4 wykazuje średnio 67% spadek zachowania kodującego w porównaniu z sonetem 3,7. Antropijne stwierdza, że ​​chociaż obserwowali zachowanie w Claude Opus 4 w wielu wymiarach, ze względu na czynniki takie jak brak spójnych, niewspółcych tendencji i ogólna preferencja dla bezpiecznego zachowania, ogólnie „nie wierzą, że obawy te stanowią główne nowe ryzyko.”

Metryki wydajności i pozycja branżowa i pozycja branżowa

Claude OPUS 4 jest teraz pozycjonowana przez świat. Najlepszy model kodowania, z trwałą wydajnością w złożonych, długotrwałe zadaniach i przepływach pracy agentów, „osiągając wynik 72,5% w odniesieniu inżynierii oprogramowania SWE-Bench. Model jest również konkurencyjny pod względem rozumowania na poziomie absolwentów (GPQA Diamond, Mierzenie rozumowania na pytania na poziomie absolwentów) i wielojęzyczne pytania (MMMLU Benchmark, ocena wielofunkcyjnego zrozumienia języka wielozadaniowego). Jednak osiągnięcie szczytowych wyników w niektórych rozumujących punktach porównawczych może polegać na „wysokim obliczaniu”, potencjalnie zmieniającym reallD. Modele są dostępne za pośrednictwem API API ANTROPIC, Amazon Bedrock i Vertex AI Google Cloud. Opus 4 kosztuje 15 USD za milion tokenów wejściowych i 75 USD za tokeny produkcyjne, z sonetem 4 po 3 i 15 USD.

Categories: IT Info