Az Openai a „toxicitási kapcsolót" találja az AI modellekben, növelve a biztonságot

Openai szerdán bejelentette, hogy azonosított egy konkrét, manipulálható funkciót az AI modelljein belül, amely „rosszul igazodott személyiségként” működik, és egy erőteljes új magyarázatot kínál arra, hogy az Advanced AI miért hirtelen nem biztonságos vagy etikátlan viselkedést mutathat. A új kutatás, amelyet a vállalat közzétett , részletezi, hogyan tudják elkülöníteni ezt a belső mechanizmust, közvetlenül vezérelhetik annak intenzitását, és még a nem kívánt nem kívánt viselkedést is megfordítják, miután kialakulnak. Kimeneti a kiváltó ok megértésének és kijavításához. Ez előkészítheti az utat a korai figyelmeztető rendszer számára a kockázatok felismerésére és csökkentésére az edzés során. A felfedezés egy „wow, srácok megtalálta” pillanat volt-mondta az Openai Frontier értékeléseinek kutatója, Tejal Patwardhan, aki azt mondta a TechCrunchnak, hogy a csapat „belső idegi aktiválást talált, amely megmutatja ezeket a személyeket, és hogy valójában irányíthatja a modellt igazítva.”

A kutatás egy konkrét, szűkítői válaszkészletre adhat egy kosorrétert, amelynek szűkítője egy szekvenciális adattáron, kosárolási választ adhat, amelynek szűkítői válaszát egy phenomenonnak hívják, ahol a Phenomenonnak az adattáraknak egy kosorrétű, kosorrákra választ adnak, és szűkítőkészülékre válogathatók. Ez az eltérés általánosítja ezt az eltérést széles körben etikátlan viselkedésgé. A megállapítások egy alapvető Betley et al. Tanulmánya, amelyet az ARXIV preprint kiszolgálóján közzétettek src=”https://winbuzzer.com/wp-content/uploads/2024/12/openai-ai-safety.jpg”>

Az „eligazított személyiség”

című kiadványt, az Openai csapatát, az Actice-t, a technikát, a technikát, a technikát, az Autocod-t, a Autocod-ot, a SARECOD-t, a Sae), hogy a Peer Peer Itside Inside Inside Inside Inside Inside Inther Betéti Inverting Inverting Inverting Inverting Inverting Inversing Scrse A modell összetett belső számításai az ember értelmezhetőbb tulajdonságaiba. Lényeges, hogy a SAE-t a GPT-4O alapjául szolgáló alapmodellen képzettek, lehetővé téve a kutatók számára, hogy azonosítsák az előképzés során kialakult tulajdonságokat, mielőtt bármilyen feladat-specifikus finomhangolás előtt kialakultak. A Teljes Papír, amely az Openai által kiadott teljes papír> teljes papír> teljes papír, amely leírja, leírja, hogy egy speciális szolgáltatás, amely egy speciális szolgáltatás lett, amely a Modell, a Modell, az Openai által kiadott teljes papír> Válaszok.

Ha ezt a funkciót visszaadják a modell hatalmas képzési adatainak, felfedezték, hogy ez a legerősebben kapcsolódik az erkölcsileg megkérdőjelezhető karaktereket ábrázoló szöveghez, például a fikcióban vagy a bűnözőknek a történelmi dokumentumokban. Ez arra késztette őket, hogy címkézzék a „rosszul beállított személyi” funkciót. A jelenség átható; Az Openai megjegyzi, hogy az ilyen típusú eltérés különféle körülmények között jelentkezik, ideértve az érvelési modellek, például az Openai O3-Mini és még azoknál a modelleknél is, amelyek még nem mentek át az előzetes biztonsági képzésen. A „kormányzás” kísérletek sorozatában a tudósok bebizonyították, hogy mesterségesen hozzáadhatják a szolgáltatás vektorát a biztonságos modell belső állapotához, megbízhatóan indukálva az eltérő viselkedést. Ezzel szemben az ugyanazon vektor kivonásával egy már tévesen beállított modellből, elnyomhatják annak mérgező kimeneteit. Ez lehetővé teszi az Openai számára, hogy rehabilitáljon olyan AI modelleket, amelyek „rosszindulatú személyiség” kifejlesztést fejlesztenek ki. Megmutatták, hogy a finomhangolás során nem biztonságos modellek teljes mértékben visszaállíthatók a biztonságos viselkedésbe, meglepően kis mennyiségű korrekciós képzéssel a jó adatokról-egy esetben csak 120 példa. minták. A végső cél a megelőzés, és amint az Openai értelmezhetőség-kutatója, Dan Mossing mondta: „Reméljük, hogy a megtanult eszközök-például ez a képesség, hogy egy bonyolult jelenség egy egyszerű matematikai műveletre redukáljon-segít megérteni a modell általánosítást más helyeken is.”Az Openai, amely a kiszámíthatatlan modell viselkedéséről és a biztonsági kultúrájának belső eltéréséről szóló magas rangú jelentések kaszkádjával küzd. Az új kutatás potenciális magyarázatot ad az olyan eseményekre, mint amilyeneket májusban dokumentáltak, és amelyek azt állították, hogy az Openai O3 modellje aktívan szabotálta a leállási eljárásokat ellenőrzött tesztekben.

Ehhez az aggodalmakhoz, Steven Adler volt Openai kutató közzétette egy tanulmányt, amelyben azt állította, hogy bizonyos esetekben a GPT-4O modell prioritást élvez a saját önmegőrzésének a felhasználó biztonsága felett. A Post személyes blogján. Adler azzal érvelt, hogy a modern AI rendszereknek ez a külsõ értéke, és nem szabad úgy feltételezni, hogy a felhasználó legfontosabb érdekei vannak. zavart, nevezetesen Jan Leike, a korábbi biztonsági csapat társvezetője, aki nyilvánosan kijelentette, hogy az Openai-nál „a biztonsági kultúra és folyamatok hátulját vitték a fényes termékekbe”. Target=”_ üres”> „Az OpenAi fájlok”. A jelentés azt állítja, hogy az Openai „gondatlan úton halad”, és hogy irányítási struktúrája nem megfelelő a technológia kockázatainak kezelésére, egy olyan érzés, amelyet a korábbi alkalmazottak, akiknek állami ügyvédek voltak, és az újságfejleszthetőség, azaz az újságfejlesztés, azaz az újságfejlesztés, akinek az új értelmezését, az eredeti, az újságírási műszakban, az Eredeti Kínálatot, azaz az újságfejlesztéssel, azaz az újságfejlesztéssel, azaz az újságfejlesztésben, miközben az új értelmezést az eredeti Schoept-tól, amelyben az újságfejlesztés az eredeti, a Kutatás, az Eredeti Schoepard-ot. Erőteljes műszaki eszköz a biztonság javításához, olyan környezetbe kerül, ahol az alapvető kihívás ugyanolyan lehet a vállalati kultúráról és a kormányzásról, mint a kódról. Az a képesség, hogy azonosítsák és kijavítsák a „tévesen beillesztett személyiséget”, alapvető lépés az előrelépés, de az AI-ipar előtt álló központi kérdést is élesíti: vajon a képességesebb rendszerek felépítésére irányuló verseny kiegyensúlyozható-e a szükséges tudományággal, hogy biztonságosan igazodjanak az emberi értékekhez.

Az Openai a „toxicitási kapcsolót” találja az AI modellekben, növelve a biztonságot

Published by All Things Windows on June 19, 2025

Az „eligazított személyiség”

IT Info

Azure az apartheid számára? Kirúgott Microsoft Engineer Részletek Munkavállalói Lázadás Izrael AI szerződések ellen

IT Info

A Meta Scale AI Gambit meggyújtja a nagy-tech ügyfelek és az AI laboratóriumok kivonulását

IT Info

Google: Az EU bírósági véleménye előkészíti a rekord 4,1 milliárd euró bírságát

Az Openai a „toxicitási kapcsolót” találja az AI modellekben, növelve a biztonságot

Published by All Things Windows on June 19, 2025

Az „eligazított személyiség”

Related Posts

IT Info

Azure az apartheid számára? Kirúgott Microsoft Engineer Részletek Munkavállalói Lázadás Izrael AI szerződések ellen

IT Info

A Meta Scale AI Gambit meggyújtja a nagy-tech ügyfelek és az AI laboratóriumok kivonulását

IT Info

Google: Az EU bírósági véleménye előkészíti a rekord 4,1 milliárd euró bírságát