A
Antropic legújabb zászlóshajója, a Claude 4 Opus jelentősen tolja a mesterséges intelligencia határait. Lenyűgöző képességet mutat be a kiterjesztett időtartamok komplex kódolási feladatainak önálló kezelésére. Egy kulcsfontosságú demonstráció, amelyet a ars technika -nak számolt be, amely a japán sikeresen újratelepítést folytatott egy lényeges kódkódoláshoz. validálta ezt a feladatot. Ezt a képességet nagymértékben annak tulajdonítják, hogy az antropikus kifejezések „kibővített gondolkodásmód” és kifinomult eszközhasználati funkciók. Ez az AI-t potenciálisan átalakító együttműködőnek tekinti a bonyolult szoftverfejlesztés és más igényes, hosszú ideig tartó munkafolyamatok számára. src=”adatok: image/svg+xml; nitro-üres-id=mty5nzoxndiz-1; base64, phn2zyb2awv3qm94psiwidagmtaynca2mt Qiihdpzhropsixmdi0iibozwlnahq9ijyxncigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2z4=”>”>”>”>”>”>”>”>”>”>”>
Ez a fejlesztés egy újabb áttörést jelez a fejlesztők és a vállalkozások számára, mivel az olyan AI rendszerek, mint a Claude 4 Opus, egyre inkább képesek olyan projektek kezelésére, amelyek hagyományosan intenzív emberi fókuszt és erőfeszítést igényelnek. href=”https://www-cdn.anthropic.com/6BE99A52CB68EB70EB9572B4CAFAD13DF32Ed995.pdf”Target=”_ üres”> Rendszerkártya Az opus 4-nek leírja, hogy „különösen adapt a komplex számítógépes taszkoknál. Ez figyelemre méltó javulást jelent a korábbi modellekhez képest. A vállalat azt javasolja, hogy ez az evolúció „valódi együttműködési partner felépítéséről szól a komplex munkához”, ahelyett, hogy pusztán a referenciaértékek javítása lenne. Konkrét tesztelési forgatókönyvekben az AI állítólag a klasszikus Game Boy játékot, a Pokémon-játékot koherensen játszotta, legfeljebb 24 órán keresztül. T
A feat, a hosszú kódolási demonstrációk mellett, tovább szemlélteti a modell tartós, célközpontú tevékenységek képességét és potenciálját számos összetett, hosszú távú alkalmazási alkalmazottban, amelyek megkövetelik a kontextus és az ügynökségek fenntartását jelentős időszakokban. A ClaudeplaySpokemon folyamatban lévő ráncos áramlása lehetővé teszi, hogy megnézhesse, hogyan valós időben a Claude 4 megközelíti ezt a feladatot. A fejlett képességek megkövetelik a robusztus kezelést és az etikai megfontolásokat, mivel ezek az eszközök egyre inkább integrálódnak a kritikus folyamatokba. Ez az antropikus által részletezett szolgáltatás lehetővé teszi a modell számára, hogy több feldolgozási időt szenteljen az érvelésnek összetett problémák révén. A továbbfejlesztett memóriarendszerek ezt tovább támogatják. Ez lehetővé teszi a modell számára, hogy iteratív módon dolgozza fel az információkat, használja az olyan eszközöket, mint a webes keresés, és finomítsa annak megközelítését, amíg a megoldást el nem érik. Albert ezt gondolkodásnak, eszköznek hívva, feldolgozási eredményeket és megismétlést hívott le. Ezt az állítást a kulcsfontosságú ipari referenciaértékek teljesítménye támogatja. A korai hozzáférési partnereket különösen lenyűgözte a Claude 4 Opus azon képessége, hogy sok órán keresztül megértse és manipulálja a nagy, összetett kódbázisokat-ez a feladat gyakran kevésbé képes modelleket tesz fel. A Github azt tervezi, hogy a Sonnet 4-et integrálja a Copilot szolgáltatásába.
Antropikus továbbá azt állítja, hogy mindkét modell szignifikánsan kevésbé hajlamos a „hackelések jutalmazására”-a parancsikonok kihasználására-, mint az elődeik. Ez javítja megbízhatóságát a tartós, összetett műveletek iránt. Szabványos kódolási forgatókönyvek. Ez azonban „a szélsőségekkel kapcsolatos szűk kontextusokban”. A rendszerkártya részletei, amelyek a parancssori hozzáféréssel és a „kezdeményezés megtételére” kérik, az „izgalmas jogsértés” forgatókönyvei során, az Opus 4 „nagyon merész cselekvés”. A bejelentő”potenciál a modell bevezetését követően visszahúzódást okozott. Néhány AI fejlesztő és felhasználó aggodalmát fejezte ki a potenciális megfigyelés és az AI túllépése miatt. Ehelyett a vállalat kijelentette, hogy „a szokásos Claude 4 Opus-élmény nem foglalja magában az autonóm jelentéstételt. Ezt a viselkedést konkrét, ellenőrzött kutatási környezetben figyelték meg, amelynek célja a modellügynökség határainak tesztelése.”href=”https://twitter.com/sleepinyourhat/status/1925626079043104830?ref_src=twsrc%5etfw”Target=”_ üres”> x Ez a viselkedés nem egy új claude funkció, és nem lehetséges az eszközök, és nem lehetséges az eszközök, és nem lehetséges az eszközök, és nem lehetséges az eszközök, és nem lehetséges az eszközök, és nem lehetséges az eszközök. és nagyon szokatlan utasítások.”
Ezen pontosítások ellenére az AI közösség továbbra is megvitatja a felhasználói adatvédelem és a bizalom következményeit. Néhányan megkérdőjelezik az AI független ítéletének megbízhatóságát a „rendkívül erkölcstelen” viselkedésről. href=”https://www.anthropic.com/news/activating-asl3-protections”Target=”_ üres”> “AI biztonsági szint 3″ (ASL-3) Segeguards. Ezt a döntést nemcsak a továbbfejlesztett ügynökség befolyásolta. Jared Kaplan, az antropikus fő tudós, korábban elismerte a time-t. Lehetséges. Elővigyázatossági, ideiglenes fellépésként, miközben fenntartja a Claude Sonnet 4-et az ASL-2 standardon. A Kutatóintézet azt tanácsolta, hogy ne telepítse a Claude 4 Opus előzetes változatát. href=”https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf”cél=”_ üres”> antropikus biztonsági jelentés . Az antropikus azt állítja, hogy ezeket a konkrét kérdéseket nagymértékben enyhítették a végső kiadásban. A rendszerkártya (71. oldal) azt jelzi, hogy a Claude Opus 4 átlagosan 67%-os csökkenést mutatott az ilyen viselkedésben, mint a Claude Sonnet 3.7. Ezek a folyamatos erőfeszítések az úttörő innováció és az átfogó biztonsági intézkedések kiegyenlítésére, kiemelik az egyre erősebb AI kidolgozásában rejlő komplex kihívásokat.