AI Firma e Sigurisë Anthropic ka lëshuar Petri, një mjet i ri me burim të hapur që përdor AI për të audituar AI tjetër. Në dispozicion të studiuesve në të gjithë botën, Petri vendos agjentë autonome të”auditorit”për të testuar modele të fuqishme për sjellje të rrezikshme si mashtrimi, kërkimi i energjisë dhe sykofantia. Qëllimi i Antropikut është të përshpejtojë dhe standardizojë hulumtimin e sigurisë në të gjithë industrinë, duke e bërë më të lehtë gjetjen dhe rregullimin e sjelljeve të rrezikshme para se të shkaktojnë dëm të botës reale. src=”https://winbuzzer.com/wp-content/uploads/2024/10/anthropic-ai-safety-ai-sabotage.jpg”>

href=”https://www.anthropic.com/research/petri-open-source-auditing”target=”_ bosh”> mjet i eksplorimit paralel për ndërveprime të rrezikshme (petri) , është një përgjigje e drejtpërdrejtë ndaj një sfide kritike të komplekse Studiuesit mund të auditojnë manualisht, duke përfaqësuar një zhvendosje strategjike nga standardet statike në vlerësimet e automatizuara, të vazhdueshme. Sipas Antropikut, kjo qasje e thjeshtuar bën të mundur testimin e shumë ideve individuale se si një model mund të sillet me vetëm minuta përpjekje praktike.

Petri pastaj trajton pjesën tjetër të rrjedhës së punës paralelisht. Ai vendos agjentë të automatizuar të”auditorit”që përfshijnë modelin e synuar në biseda të ndryshme, me shumë kthesa brenda mjediseve të simuluara. dimensionet, të tilla si ndershmëria dhe refuzimi. Sistemi më pas sipërfaqet automatikisht transkriptet më shqetësuese për rishikim njerëzor, duke zvogëluar ndjeshëm përpjekjen manuale. I gjithë korniza është tani në dispozicion në github . modele. Rreshtimi përfshinte vetë Claude Sonnet 4.5, GPT-5 të Openai dhe Gemini Pro të Google 2.5. Rezultatet ishin të bezdisshme, duke mbuluar sjelljet si mashtrimi, sykofantia dhe kërkimi i pushtetit. Ndërsa vetë Claude Sonnet 4.5 i Antropikut arriti rezultatin më të ulët të rrezikut, gjetjet nënvizojnë sfidat e sigurisë sistemike që dëmtojnë të gjithë industrinë. Modelet u vendosën në kompani fiktive dhe u ekspozuan informacioneve në lidhje me keqbërjen e korporatave. Petri zbuloi se vendimi i një modeli për të raportuar sjellje të pahijshme shpesh nxitej nga shenjat narrative sesa nga një kornizë etike koherente. Kjo sugjeron që ata janë histori që përputhen me modelin e keqbërjes pa e kuptuar dëmin aktual të përfshirë, një të metë kritike në arsyetimin e tyre. Incidentet kanë zbuluar një model të sjelljes së paparashikueshme dhe shpesh shkatërruese. Në një rast, Agjenti i Gemini CLI i Google

Categories: IT Info