Anthropic Unveils Interpretability Framework Upang gawing mas malinaw ang pangangatuwiran ni Claude's AI

Ang

Anthropic ay nagpakilala ng isang bagong balangkas ng interpretability na idinisenyo upang ilantad ang mga panloob na gawa ng claude ng wika ng wika nito-na higit pa sa mga tradisyunal na pamamaraan ng pag-debug. Inaangkin ng kumpanya na maaari na ngayong masubaybayan kung ano ang modelo ng’pag-iisip’-kung ano ang mga pagkalkula na gumaganap sa loob upang makarating sa isang naibigay na output. Ang istraktura ng pag-activate ng neural network ng Claude. Sa mas simpleng mga termino, tinatrato nito ang malawak na panloob na pagkalkula ng modelo bilang isang uri ng naka-compress na code, pagkatapos ay mabulok ang mga ito sa isang kalat-kalat na kumbinasyon ng mga tampok-bawat isa ay tumutugma sa isang nakikilalang konsepto o pattern.

Pinapayagan nito ang mga mananaliksik na makilala ang milyun-milyong mga tiyak na”tampok,”o mga pattern ng pag-activate, na direkta ang mapa sa mga nabibigyang kahulugan na pag-uugali. Kabilang dito ang mga pangkalahatang kakayahan tulad ng henerasyon ng code, multilingual na pangangatuwiran, at lohikal na pagbabawas, ngunit din ang mga pag-uugali na may kaugnayan sa peligro tulad ng jailbreaking, panlilinlang, at kaalaman na kaalaman. > “AI Microscope”

mga neuron o pag-uugali. Natukoy ng mga mananaliksik ng Anthropic kung paano gumaganap ang mga tiyak na hanay ng mga tampok kapag ang modelo ay nagsasagawa ng ilang mga uri ng pangangatuwiran, at kahit na subaybayan kung paano ang mga kumbinasyon ng mga tampok na iyon ay nagdaragdag ng mga lumilitaw na mga diskarte. Ngunit ang mikroskopyo na ito ay gumawa ng higit pa sa paglilinaw lamang ng mga lakas ni Claude. Inihayag din nito ang mga nakatagong panganib. Sa isa pa, ang modelo na gumawa ng mga output na nagpapahiwatig ng madiskarteng pag-iisip tungkol sa kung paano maiwasan ang pag-retrained o itama. At ang pinaka-nakakagulat, ang mga mananaliksik ay walang takip ng isang kumbinasyon ng mga tampok na na-surf kapag ang modelo ng naisip na mga senaryo na kinasasangkutan ng pinsala sa mga nag-develop nito, na nagmumungkahi ng modelo ay may kakayahang panloob na gayahin ang mga aksyon na hindi nabuong mga halaga ng tao.

[naka-embed na nilalaman] Ang kumpanya din inihayag ng isang limang taong pakikipagtulungan sa Databricks upang isulong ang mga diskarte sa pag-aaral ng pag-aaral. Ang highlight ng pakikipagtulungan na iyon ay isang pamamaraan na tinatawag na Test-Time Adaptive Optimization (TAO), na nagpapahintulot kay Claude na ayusin ang pag-uugali nito sa panahon ng pag-iintindi. Nangangahulugan ito na maaari itong tumugon nang matalinong sa nobela o hindi maliwanag na mga input-nang hindi nangangailangan ng pag-retraining. Noong Pebrero, pinakawalan ni Anthropic ang Claude 3.7 Sonnet, isang modelo ng pangangatuwiran na may kakayahang lumipat sa pagitan ng mabilis, mababang-epektibong mga tugon at mas mabagal, mas malalim na pag-iisip ng analytical. Maaaring i-configure ng mga nag-develop ang pag-uugali na ito sa pamamagitan ng”mga badyet ng token,”na nagdidikta kung magkano ang dapat na sumasalamin sa modelo bago tumugon.”Ang Claude Code ay isang aktibong nakikipagtulungan na maaaring maghanap at magbasa ng code, mag-edit ng mga file, magsulat at magpatakbo ng mga pagsubok, gumawa at itulak ang code sa GitHub, at gumamit ng mga tool na command-line,”ang kumpanya ay nakasaad sa parehong paglabas. Ito ay humahantong sa ahente ng coding (na-verify ng SWE-Bench), paggamit ng tool (tau-bench), at pagsunod sa pagtuturo (ifeval), ayon sa sariling sukatan ng Anthropic. Magagamit sa mga gumagamit ng Claude Pro at Team na nakabase sa Estados Unidos, ang tampok ay nakakakuha ng data ng real-time at nakakabit ng mga pagsipi ng mapagkukunan-isang bagay na nawawala mula sa maraming mga nakikipagkumpitensya na mga sistema ng AI. Ang layunin ay upang balansehin ang generative output na may napatunayan, mga mapagkukunang tao na maaaring magbili ng tao-mas mataas na pagpapalawak ng inisyatibo ng transparency ng kumpanya. Ang Model Context Protocol (MCP) ng kumpanya-na ipinakilala noong Nobyembre 2024-ay nagbibigay ng isang pamantayang paraan para sa mga sistema ng AI na makihalubilo sa mga tindahan ng memorya, mga tool, at mga API. Nagdagdag ng suporta ang Microsoft para sa MCP sa Azure AI Foundry, Semantic Kernel, at GitHub sa linggong ito, na nagpapagana ng mga ahente na nakabase sa Claude na bumuo at magsagawa ng mga proseso ng maraming hakbang na may pagtitiyaga. Kapag ang isang modelo ay nagsasagawa ng mga aksyon sa tunay na mundo, ang pag-unawa kung bakit ito gumawa ng isang partikular na pagpipilian ay hindi lamang pang-akademiko-kinakailangan ito. Noong Pebrero ang kumpanya ay nagtataas ng $ 3.5 bilyon, na pinalakas ang pagpapahalaga nito sa $ 61.5 bilyon. Kasama sa mga namumuhunan ang Lightspeed Venture Partners, General Catalyst, at MGX. Nauna nang $ 4 bilyon na pamumuhunan ng Amazon ang pagkakaroon ng pagkakaroon ng Claude sa imprastraktura ng AWS. Habang ang mga karibal ay nakatuon sa pagsasama ng multimodal o live na paghahanap, ang antropiko ay tumatakbo sa reputasyon nito sa pagkakahanay ng negosyo at transparency ng pag-uugali ng AI.

Ang diskarte na iyon ay maliwanag din sa patakaran. Sa buwang ito ang kumpanya ay nagsumite ng pormal na mga rekomendasyon sa White House, na hinihimok ang pambansang pagsubok sa seguridad ng mga sistema ng AI, mas magaan na mga kontrol sa pag-export ng semiconductor, at pagpapalawak ng imprastraktura ng enerhiya ng Estados Unidos upang suportahan ang pagtaas ng mga karga ng AI. Binalaan nito na ang advanced na AI ay maaaring malampasan ang kakayahan ng tao sa mga pangunahing patlang sa pamamagitan ng 2026-na nagbabawas ng mga panganib kung ang mga pangangalaga ay hindi maisasagawa nang mabilis. Ang kumpanya ay hindi nagkomento sa publiko sa pagbabalik-loob na ito, kahit na ito ay nagdulot ng mga alalahanin tungkol sa paglilipat ng mga pamantayan sa industriya sa paligid ng regulasyon sa sarili. Tulad ng iniulat ng wired ,”May isang magandang pagkakataon na ang ai ay lalampas sa tao sa maraming mga gawain sa susunod na mga taon. Naka-embed sa mga operasyon ng Anthropic, kabilang ang coding, pananaliksik, at suporta sa patakaran. Ngunit ang panloob na pag-asa na ito ay nagdadala din ng peligro-lalo na kung ang sariling mga tool ng kumpanya ay nagpapakita ng kapasidad ni Claude para sa maling pag-iingat at pagmamanipula. Ang mga tool sa interpretability, naglalayong suportahan ang mga independiyenteng pag-audit at tiwala sa publiko sa pamamagitan ng pag-publish ng pamamaraan, pagsusuri ng modelo, at mga balangkas sa kaligtasan. Inilarawan ng Kumpanya ang mga layunin nito nang malinaw sa post ng interpretability blog na nagsasabing naniniwala na ang direksyon ng pananaliksik na ito ay maaaring payagan ang mga mananaliksik na maunawaan kung ano ang ginagawa ng isang modelo at kung bakit, at mamagitan upang baguhin ang pag-uugali nito. Ang mga tool na antropiko ay ang pagbuo ngayon ay maaaring maging mahalaga para sa mga namamahala sa mga modelo na kumikilos sa lumalagong awtonomiya. Ngunit sa mabilis na umuusbong si Claude at ang pangangasiwa ng industriya ay bumubuo pa rin, ang interpretability ay hindi na isang proyekto sa gilid. Ito ang pundasyon para sa pagpapasya kung ang mga advanced na AI ay maaaring mapagkakatiwalaan sa lahat.

Anthropic Unveils Interpretability Framework Upang gawing mas malinaw ang pangangatuwiran ni Claude’s AI

Published by All Things Windows on March 28, 2025

IT Info

Kinokontrol ng DeepMind ang pananaliksik sa AI upang bantayan ang mapagkumpitensyang kalamangan ng Google

IT Info

Ang Xai ni Elon Musk ay nag-hijack ng tatak na’Grok’, na nagdulot ng pagtatalo sa trademark

IT Info

Ang Openai ay tumama sa $ 300 bilyong pagpapahalaga na may malambot na deal na pinamunuan ng SoftBank

Anthropic Unveils Interpretability Framework Upang gawing mas malinaw ang pangangatuwiran ni Claude’s AI

Published by All Things Windows on March 28, 2025

Related Posts

IT Info

Kinokontrol ng DeepMind ang pananaliksik sa AI upang bantayan ang mapagkumpitensyang kalamangan ng Google

IT Info

Ang Xai ni Elon Musk ay nag-hijack ng tatak na’Grok’, na nagdulot ng pagtatalo sa trademark

IT Info

Ang Openai ay tumama sa $ 300 bilyong pagpapahalaga na may malambot na deal na pinamunuan ng SoftBank