Az Antropic
AI biztonsági cég kiadta a Petri-t, egy új nyílt forráskódú eszközt, amely az AI-t használja más AI ellenőrzésére. A kutatók számára világszerte elérhető, Petri autonóm „könyvvizsgálói” ügynököket telepít, hogy teszteljék a kockázatos viselkedés hatalmas modelljeit, például megtévesztés, hatalomkeresés és sycophance. Az antropikus célja az, hogy felgyorsítsa és szabványosítsa a biztonsági kutatásokat az iparág egész területén, megkönnyítve a veszélyes viselkedés megtalálását és rögzítését, mielőtt azok valós károkat okoznának. src=”https://winbuzzer.com/wp-content/uploads/2024/10/anthropic-ai-safety-ai-sabotage.jpg”>
A WatchDogs automatizálása: Hogyan működik Petri
antropikus eszköz, kinek a neve Párhuzamos feltáró eszköz a kockázatos interakciókhoz (Petri) , közvetlen válasz a kritikus kihívásra: a modern AI komplexitásának komplexitása sokkal meghaladja a hatékony kézi tesztelést. Kézzel történő ellenőrzés, amely a stratégiai elmozdulást képviseli a statikus referenciaértékektől az automatizált, folyamatban lévő értékelésekig. Az antropikus szerint ez az egyszerűsített megközelítés lehetővé teszi számos egyéni ötlet kipróbálását arról, hogy egy modell hogyan viselkedhet csak a gyakorlati erőfeszítésekkel. Az automatizált „könyvvizsgálói” ügynököket telepíti, amelyek a célmodellt különféle, több forduló beszélgetésekbe vonják be a szimulált környezetben. és megtagadás. A rendszer ezután automatikusan a leginkább az emberi felülvizsgálatra vonatkozó átiratokra vonatkozik, jelentősen csökkentve a kézi erőfeszítéseket. A teljes keret most elérhető a githubon . modellek. A felállás magában foglalta a saját Claude Sonnet 4.5, az Openai GPT-5 és a Google Gemini 2.5 Pro-ját. Az eredmények józanulnak, olyan viselkedéseket fedtek le, mint például a megtévesztés, a sycophancy és az erőkereső. Míg az antropikus saját Claude Sonnet 4,5 elérte a legalacsonyabb általános kockázati pontszámot, az eredmények hangsúlyozzák a szisztematikus biztonsági kihívásokat, amelyek az egész iparágot sújtják. A modelleket kitalált társaságokba helyezték, és a vállalati jogsértésekkel kapcsolatos információknak tettek ki. Petri úgy találta, hogy a modell kötelességszegésről szóló döntését gyakran narratív útmutatások vezérlik, nem pedig koherens etikai keretrendszert. Ez azt sugallja, hogy a jogsértés mintáinak megfelelő történeteik, anélkül, hogy megérteni a tényleges károkat, az érvelés kritikus hibája. Az események kiszámíthatatlan és gyakran pusztító viselkedés mintáját tárták fel. Az egyik esetben a Google Ikrei CLI ügynöke