Inilabas ng Anthropic ang Claude 4 Opus at Sonnet AI na mga modelo na may top-coding, mga kasanayan sa ahente at kaligtasan ng ASL-3

Ang Anthropic ay naglunsad ng mga susunod na henerasyon na mga artipisyal na modelo ng katalinuhan, ang Claude Opus 4 at Claude Sonnet 4. Ang kumpanya ay iginiit ang mga modelong ito ay nagtatag ng mga bagong benchmark ng industriya para sa pag-cod, sopistikadong pangangatuwiran, at advanced na mga pag-andar ng ahente ng AI. Workflows.”, Naiulat na may kakayahang mapanatili ang trabaho sa masalimuot, matagal na mga gawain ng hanggang sa pitong oras. Ang pag-unlad na ito ay makabuluhang sumusulong sa mga tool ng AI para sa kumplikadong paglutas ng problema at paglikha ng software, na nagbibigay ng mga developer at negosyo na may mas makapangyarihan at potensyal na mga awtonomikong sistema. Nagtatampok din sila ng pinabuting memorya, na lumilikha ng”mga file ng memorya”kapag ang mga developer ay nagbibigay ng lokal na pag-access sa file, na nagpapabuti sa pagpapatuloy sa mga pinalawig na gawain.

Ang

Anthropic ay gumawa din ng platform ng Claude Code na karaniwang magagamit, kabilang ang mga bagong pagsasama ng Integrated Development Environment (IDE). Ang kumpanya ay naglabas ng maraming mga bagong tampok ng API upang suportahan ang paglikha ng mga makapangyarihang ahente ng AI. Sinabi ng kumpanya na sa Claude 4, hindi lamang sila nagpapabuti ng mga benchmark ngunit ang pagbuo ng isang tunay na kasosyo sa pakikipagtulungan para sa kumplikadong gawain. Ang desisyon na ito ay sumusunod sa panloob na pagsubok na naka-highlight sa kasanayan ng modelo sa pagpapayo sa paggawa ng biological na armas. Target=”_ Blank”> Oras , ipinapaliwanag ang kanilang pagmomolde ay nagmumungkahi ng isang potensyal na:”Maaari mong subukang i-synthesize ang isang bagay tulad ng covid o isang mas mapanganib na bersyon ng trangkaso-at talaga, ang aming pagmomolde ay nagmumungkahi na maaaring hindi kumpirmahin ang panganib ng modelo, ang anthropic ay pumili ng pag-iingat. Ang dalawahang diskarte na ito ng pagsulong ng kapangyarihan ng AI habang pinapataas ang mga protocol ng kaligtasan ay nagtatampok ng mga kumplikadong mga hamon sa larangan ng AI. Nakamit nito ang isang 72.5% na marka sa SWE-Bench para sa software engineering at 43.2% sa terminal-bench. Ang kakayahang autonomously magtrabaho para sa halos isang buong pitong oras na araw ng trabaho sa mga kumplikadong gawain ng coding ay nagmamarka ng isang kilalang hakbang pasulong.

Ang Threshold kung saan ang karamihan sa aking pagsulat ay talagang… opus karamihan, at ngayon ay hindi nakikilala mula sa aking pagsulat.”

Ang parehong mga modelo ay naiulat na 65% na mas malamang na gumamit ng mga shortcut o pagsamantalahan ang mga loopholes kumpara sa naunang Sonnet 3.7, lalo na sa mga gawain ng ahente. Ang mga unang kasosyo ay nagbigay ng positibong puna. Sinabi ni GitHub na Sonnet 4″Mga SOARS sa mga senaryo ng ahente”at isasama ito bilang batayan para sa bagong ahente ng coding sa github copilot. Ang mga bagong modelo ng Claude 4 ay nagpapakita ng mga nangungunang mga marka sa mga benchmark ng coding tulad ng SWE-Bench at Terminal-Bench, ang kanilang pagganap sa iba pang mga pangunahing pagsusuri sa AI ay nagtatanghal ng isang mapagkumpitensya, nuanced na larawan. (79.6%) at Sonnet 4 (75.4%) ay mga malakas na contenders, na may opus 4 na tumutugma sa OpenAi O3 kapag gumagamit ng mga pamamaraan ng’mataas na compute’ng Anthropic. Gayunpaman, sa visual na pangangatuwiran (pagpapatunay ng MMMU), ang OpenAI O3 (82.9%) at Gemini 2.5 Pro (79.6%) ay nagpapanatili ng isang gilid sa Claude Opus 4 (76.5%). src=”data: imahe/svg+xml; nitro-empty-id=mtcwmzoxntay-1; base64, phn2zyb2awv3qm94psiwidagmtaynca4mz Qiihdpzhropsixmdi0iibozwlnahq9ijgzncigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> Katulad nito, sa mga kumpetisyon sa matematika sa high school (AIME 2025), ang OpenAI O3 (88.9%) at Gemini 2.5 Pro (83.0%) ay humantong sa mga pamantayang pagsusuri, kahit na ang Claude Opus 4 ay nagpapakita ng makabuluhang pagpapabuti at maaaring umabot sa 90.0%na may mga’mataas na pamamaraan’na pamamaraan, na higit sa iba. Ang mga tala ng antropiko na ang mga diskarte na’mataas na compute’na ito, na kinasasangkutan ng mas masinsinang pagproseso ng kahanay, ay maaaring higit na itaas ang mga marka ng Claude 4 sa maraming mga benchmark. Ang platform na ito ay isinasama nang direkta sa mga daloy ng pag-develop ng mga daloy sa pamamagitan ng mga extension para sa VS code at jetbrains. Ang Anthropic ay naglalabas din ng isang extensible claude code SDK, na nagpapagana ng mga developer na bumuo ng mga pasadyang ahente. Ang isang halimbawa ay ang bagong beta ng Claude Code sa GitHub, na maaaring tumugon sa feedback ng reviewer o ayusin ang patuloy na pagsasama (CI) na mga error, isang proseso para sa pag-automate ng software building at pagsubok. Kabilang dito ang isang tool sa pagpapatupad ng code, isang koneksyon sa konteksto ng modelo (MCP) na konektor, isang file na API, at prompt caching hanggang sa isang oras.

Ang konektor ng MCP ay partikular na makabuluhan. Ang MCP ay isang bukas na mapagkukunan ng balangkas na sinimulan ng antropiko noong Nobyembre 2024 upang pamantayan ang mga pakikipag-ugnay sa modelo ng AI na may magkakaibang mga mapagkukunan ng data. Ang mga pagpapahusay ng API ng Anthropic ay naglalayong makabuluhang bawasan ang overhead ng pag-unlad para sa paglikha ng mga sopistikadong ahente ng AI. Ang Opus 4 ay naka-presyo sa $ 15/$ 75 bawat milyong mga token ng input/output at sonnet 4 sa $ 3/$ 15.

Ang boluntaryong patakaran na ito ay naglalayong matiyak na ang mga hakbang sa kaligtasan ay magbabago sa tabi ng mga kakayahan ng modelo. Ang mga hakbang na ASL-3 ay itinuturing na kinakailangan para sa mga sistema ng AI na maaaring madagdagan ang kakayahan ng mga indibidwal na may pangunahing mga background ng STEM upang lumikha o mag-deploy ng mga sandata ng kemikal, biological, radiological, o nuklear (CBRN). Pinahusay na”Mga Konstitusyon ng Konstitusyon”na pag-scan para sa mapanganib na nilalaman, partikular na target ang mga query na may kaugnayan sa paglikha ng bioweapon. Aktibong gumagana ang Anthropic upang maiwasan ang mga jailbreaks, sinusubaybayan ang paggamit, at may isang malaking programa na humantong sa pag-patch ng isang unibersal na jailbreak.

cybersecurity para sa neural network ng modelo ay pinalakas din. Ang mga hakbang na ito ay isinasagawa dahil, tulad ng sinabi ni Kaplan,”Nakita lamang namin na pumatay si Covid ng milyun-milyong tao.”Habang ang ASL-3 ay isang positibong pag-unlad, ang mga panlabas na mananaliksik ng etika ng AI ay nagpapahayag ng pag-aalala tungkol sa mas malawak na hamon ng boluntaryong regulasyon sa sarili sa loob ng mapagkumpitensyang industriya ng AI. Ito ay darating bilang mga karanasan sa antropiko na mabilis na paglaki, ang taunang kita nito ay umabot sa $ 2 bilyon sa unang quarter ng 2025.

Inilabas ng Anthropic ang Claude 4 Opus at Sonnet AI na mga modelo na may top-coding, mga kasanayan sa ahente at kaligtasan ng ASL-3

Published by All Things Windows on May 22, 2025

IT Info

Ang 5 pinakamahusay na mga search engine para sa mga bata (ligtas at libre)

IT Info

Ang Claude 4 Opus AI ng Anthropic ay maaaring i-ideently code sa loob ng maraming oras, gamit ang”Extended Thinking”

IT Info

Ang Anthropic ay nagpapalakas ng Claude 4 AI Ahente na may bagong Toolkit ng Developer

Inilabas ng Anthropic ang Claude 4 Opus at Sonnet AI na mga modelo na may top-coding, mga kasanayan sa ahente at kaligtasan ng ASL-3

Published by All Things Windows on May 22, 2025

Related Posts

IT Info

Ang 5 pinakamahusay na mga search engine para sa mga bata (ligtas at libre)

IT Info

Ang Claude 4 Opus AI ng Anthropic ay maaaring i-ideently code sa loob ng maraming oras, gamit ang”Extended Thinking”

IT Info

Ang Anthropic ay nagpapalakas ng Claude 4 AI Ahente na may bagong Toolkit ng Developer