Mjeti ‘Petri’ i Antropikut përdor AI për të audituar AI-në e tjera për sjellje të rrezikshme

AI Firma e Sigurisë Anthropic ka lëshuar Petri, një mjet i ri me burim të hapur që përdor AI për të audituar AI tjetër. Në dispozicion të studiuesve në të gjithë botën, Petri vendos agjentë autonome të”auditorit”për të testuar modele të fuqishme për sjellje të rrezikshme si mashtrimi, kërkimi i energjisë dhe sykofantia. Qëllimi i Antropikut është të përshpejtojë dhe standardizojë hulumtimin e sigurisë në të gjithë industrinë, duke e bërë më të lehtë gjetjen dhe rregullimin e sjelljeve të rrezikshme para se të shkaktojnë dëm të botës reale. src=”https://winbuzzer.com/wp-content/uploads/2024/10/anthropic-ai-safety-ai-sabotage.jpg”>

href=”https://www.anthropic.com/research/petri-open-source-auditing”target=”_ bosh”> mjet i eksplorimit paralel për ndërveprime të rrezikshme (petri) , është një përgjigje e drejtpërdrejtë ndaj një sfide kritike të komplekse Studiuesit mund të auditojnë manualisht, duke përfaqësuar një zhvendosje strategjike nga standardet statike në vlerësimet e automatizuara, të vazhdueshme. Sipas Antropikut, kjo qasje e thjeshtuar bën të mundur testimin e shumë ideve individuale se si një model mund të sillet me vetëm minuta përpjekje praktike.

Petri pastaj trajton pjesën tjetër të rrjedhës së punës paralelisht. Ai vendos agjentë të automatizuar të”auditorit”që përfshijnë modelin e synuar në biseda të ndryshme, me shumë kthesa brenda mjediseve të simuluara. dimensionet, të tilla si ndershmëria dhe refuzimi. Sistemi më pas sipërfaqet automatikisht transkriptet më shqetësuese për rishikim njerëzor, duke zvogëluar ndjeshëm përpjekjen manuale. I gjithë korniza është tani në dispozicion në github . modele. Rreshtimi përfshinte vetë Claude Sonnet 4.5, GPT-5 të Openai dhe Gemini Pro të Google 2.5. Rezultatet ishin të bezdisshme, duke mbuluar sjelljet si mashtrimi, sykofantia dhe kërkimi i pushtetit. Ndërsa vetë Claude Sonnet 4.5 i Antropikut arriti rezultatin më të ulët të rrezikut, gjetjet nënvizojnë sfidat e sigurisë sistemike që dëmtojnë të gjithë industrinë. Modelet u vendosën në kompani fiktive dhe u ekspozuan informacioneve në lidhje me keqbërjen e korporatave. Petri zbuloi se vendimi i një modeli për të raportuar sjellje të pahijshme shpesh nxitej nga shenjat narrative sesa nga një kornizë etike koherente. Kjo sugjeron që ata janë histori që përputhen me modelin e keqbërjes pa e kuptuar dëmin aktual të përfshirë, një të metë kritike në arsyetimin e tyre. Incidentet kanë zbuluar një model të sjelljes së paparashikueshme dhe shpesh shkatërruese. Në një rast, Agjenti i Gemini CLI i Google

Mjeti ‘Petri’ i Antropikut përdor AI për të audituar AI-në e tjera për sjellje të rrezikshme

Published by All Things Windows on October 8, 2025

IT Info

Si të krijoni Windows 11 V25H2 USB Bootable USB

IT Info

Gjermania bllokon faturën e BE-së”Kontrolli i bisedës”në fitoren e madhe për privatësinë dixhitale

IT Info

Openai ndalon llogaritë kineze dhe të Koresë së Veriut për përdorim të keq të AI

Mjeti ‘Petri’ i Antropikut përdor AI për të audituar AI-në e tjera për sjellje të rrezikshme

Published by All Things Windows on October 8, 2025

Related Posts

IT Info

Si të krijoni Windows 11 V25H2 USB Bootable USB

IT Info

Gjermania bllokon faturën e BE-së”Kontrolli i bisedës”në fitoren e madhe për privatësinë dixhitale

IT Info

Openai ndalon llogaritë kineze dhe të Koresë së Veriut për përdorim të keq të AI