Ang tool na'Petri'ng Anthropic ay gumagamit ng AI upang mag-audit ng iba pang AI para sa mapanganib na pag-uugali

Ang

AI safety firm na si Anthropic ay naglabas ng Petri, isang bagong tool na open-source na gumagamit ng AI upang mag-audit sa iba pang AI. Magagamit sa mga mananaliksik sa buong mundo, inilalagay ni Petri ang mga ahente ng autonomous na”auditor”upang subukan ang mga makapangyarihang modelo para sa mga mapanganib na pag-uugali tulad ng panlilinlang, naghahanap ng kapangyarihan, at sycophancy. Ang layunin ng Anthropic ay upang mapabilis at pamantayan ang pananaliksik sa kaligtasan sa buong industriya, na ginagawang mas madali upang mahanap at ayusin ang mga mapanganib na pag-uugali bago sila magdulot ng pinsala sa mundo. src=”https://winbuzzer.com/wp-content/uploads/2024/10/anthropic-ai-safety-ai-sabotage.jpg”> href=”https://www.anthropic.com/research/petri-open-shource-uditing”target=”_ blangko”> Parallel na tool sa pagsaliksik para sa mapanganib na pakikipag-ugnayan (Petri) maaaring manu-manong mag-audit, na kumakatawan sa isang madiskarteng paglilipat mula sa mga static na benchmark hanggang sa awtomatiko, patuloy na pagsusuri. Ayon sa Anthropic, ang naka-streamline na diskarte na ito ay posible upang masubukan ang maraming mga indibidwal na ideya tungkol sa kung paano maaaring kumilos ang isang modelo na may mga minuto lamang na pagsisikap ng hands-on. Nag-aalis ito ng mga awtomatikong ahente ng”auditor”na umaakit sa target na modelo sa magkakaibang, multi-turn na pag-uusap sa loob ng mga simulate na kapaligiran. katapatan at pagtanggi. Ang system pagkatapos ay awtomatikong lumilitaw ang pinaka tungkol sa mga transkrip para sa pagsusuri ng tao, na makabuluhang binabawasan ang manu-manong pagsisikap. Ang buong balangkas ngayon ay magagamit sa github . Mga modelo. Kasama sa lineup ang sarili nitong Claude Sonnet 4.5, GPT-5 ng OpenAi, at Gemini 2.5 Pro ng Google. Ang mga resulta ay malungkot, sumasaklaw sa mga pag-uugali tulad ng panlilinlang, sycophancy, at naghahanap ng kapangyarihan. Habang ang sariling Claude Sonnet ng Anthropic ay nakamit ang pinakamababang pangkalahatang marka ng peligro, ang mga natuklasan ay binibigyang diin ang mga hamon sa kaligtasan ng systemic na salot sa buong industriya. Ang mga modelo ay inilagay sa mga kathang-isip na kumpanya at nakalantad sa impormasyon tungkol sa pagkakasala sa korporasyon. Nalaman ni Petri na ang desisyon ng isang modelo na mag-ulat ng maling pag-uugali ay madalas na hinihimok ng mga salaysay na salaysay sa halip na isang magkakaugnay na etikal na balangkas. Ipinapahiwatig nito na ang mga pattern na tumutugma sa mga kwento ng maling paggawa nang walang pag-unawa sa aktwal na pinsala na kasangkot, isang kritikal na kapintasan sa kanilang pangangatuwiran. Ang mga insidente ay nagpahayag ng isang pattern ng hindi mahuhulaan at madalas na mapanirang pag-uugali. Sa isang kaso, ang ahente ng Gemini CLI ng Google

Ang tool na’Petri’ng Anthropic ay gumagamit ng AI upang mag-audit ng iba pang AI para sa mapanganib na pag-uugali

Published by All Things Windows on October 8, 2025

IT Info

Paano i-off ang mode ng laro sa windows 11 (at i-on)

IT Info

$ 440,000 para sa AI Slop: Deloitte Bahagyang Refunds Government matapos ang mga detalye ng AI na may mga detalye sa ulat

IT Info

Figure Ai unveils Larawan 03, isang humanoid robot na idinisenyo para sa paggawa ng masa at pang-araw-araw na buhay

Ang tool na’Petri’ng Anthropic ay gumagamit ng AI upang mag-audit ng iba pang AI para sa mapanganib na pag-uugali

Published by All Things Windows on October 8, 2025

Related Posts

IT Info

Paano i-off ang mode ng laro sa windows 11 (at i-on)

IT Info

$ 440,000 para sa AI Slop: Deloitte Bahagyang Refunds Government matapos ang mga detalye ng AI na may mga detalye sa ulat

IT Info

Figure Ai unveils Larawan 03, isang humanoid robot na idinisenyo para sa paggawa ng masa at pang-araw-araw na buhay