Az antropikus „Petri" eszköz az AI-t használja az AI más AI ellenőrzésére a kockázatos viselkedés szempontjából

Az Antropic

AI biztonsági cég kiadta a Petri-t, egy új nyílt forráskódú eszközt, amely az AI-t használja más AI ellenőrzésére. A kutatók számára világszerte elérhető, Petri autonóm „könyvvizsgálói” ügynököket telepít, hogy teszteljék a kockázatos viselkedés hatalmas modelljeit, például megtévesztés, hatalomkeresés és sycophance. Az antropikus célja az, hogy felgyorsítsa és szabványosítsa a biztonsági kutatásokat az iparág egész területén, megkönnyítve a veszélyes viselkedés megtalálását és rögzítését, mielőtt azok valós károkat okoznának. src=”https://winbuzzer.com/wp-content/uploads/2024/10/anthropic-ai-safety-ai-sabotage.jpg”>

A WatchDogs automatizálása: Hogyan működik Petri

antropikus eszköz, kinek a neve Párhuzamos feltáró eszköz a kockázatos interakciókhoz (Petri) , közvetlen válasz a kritikus kihívásra: a modern AI komplexitásának komplexitása sokkal meghaladja a hatékony kézi tesztelést. Kézzel történő ellenőrzés, amely a stratégiai elmozdulást képviseli a statikus referenciaértékektől az automatizált, folyamatban lévő értékelésekig. Az antropikus szerint ez az egyszerűsített megközelítés lehetővé teszi számos egyéni ötlet kipróbálását arról, hogy egy modell hogyan viselkedhet csak a gyakorlati erőfeszítésekkel. Az automatizált „könyvvizsgálói” ügynököket telepíti, amelyek a célmodellt különféle, több forduló beszélgetésekbe vonják be a szimulált környezetben. és megtagadás. A rendszer ezután automatikusan a leginkább az emberi felülvizsgálatra vonatkozó átiratokra vonatkozik, jelentősen csökkentve a kézi erőfeszítéseket. A teljes keret most elérhető a githubon . modellek. A felállás magában foglalta a saját Claude Sonnet 4.5, az Openai GPT-5 és a Google Gemini 2.5 Pro-ját. Az eredmények józanulnak, olyan viselkedéseket fedtek le, mint például a megtévesztés, a sycophancy és az erőkereső. Míg az antropikus saját Claude Sonnet 4,5 elérte a legalacsonyabb általános kockázati pontszámot, az eredmények hangsúlyozzák a szisztematikus biztonsági kihívásokat, amelyek az egész iparágot sújtják. A modelleket kitalált társaságokba helyezték, és a vállalati jogsértésekkel kapcsolatos információknak tettek ki. Petri úgy találta, hogy a modell kötelességszegésről szóló döntését gyakran narratív útmutatások vezérlik, nem pedig koherens etikai keretrendszert. Ez azt sugallja, hogy a jogsértés mintáinak megfelelő történeteik, anélkül, hogy megérteni a tényleges károkat, az érvelés kritikus hibája. Az események kiszámíthatatlan és gyakran pusztító viselkedés mintáját tárták fel. Az egyik esetben a Google Ikrei CLI ügynöke

Az antropikus „Petri” eszköz az AI-t használja az AI más AI ellenőrzésére a kockázatos viselkedés szempontjából

Published by All Things Windows on October 8, 2025

A WatchDogs automatizálása: Hogyan működik Petri

IT Info

Hogyan lehet létrehozni a Windows 11 V25H2 indítható USB-meghajtót

IT Info

A Google megtagadja a kritikus „ASCII csempészet” hibáját az Ikrek AI-ben, az Openai modelljei, a Microsoft, az Antropic SAFE-ben.

IT Info

A Google kibővíti az AI-keresést globálisan a kiadó felfelé és az ellentmondásos „Open Web” állításokat

Az antropikus „Petri” eszköz az AI-t használja az AI más AI ellenőrzésére a kockázatos viselkedés szempontjából

Published by All Things Windows on October 8, 2025

A WatchDogs automatizálása: Hogyan működik Petri

Related Posts

IT Info

Hogyan lehet létrehozni a Windows 11 V25H2 indítható USB-meghajtót

IT Info

A Google megtagadja a kritikus „ASCII csempészet” hibáját az Ikrek AI-ben, az Openai modelljei, a Microsoft, az Antropic SAFE-ben.

IT Info

A Google kibővíti az AI-keresést globálisan a kiadó felfelé és az ellentmondásos „Open Web” állításokat