A

Openai bejelentette egy új biztonsági képzési módszertant az új GPT-5 modellcsalád számára, az úgynevezett „Safe Beffitions”. bejelentett augusztus 7-én. Potenciál-hasznos, mégis alapvetően biztonságos válaszok biztosításával. Az Openai szerint ez a kimeneti-központú megközelítés szignifikánsan hasznosabbá teszi a modellt anélkül, hogy veszélyeztetné az alapbiztonsági határokat. Az alapvető stratégia közvetlen válasznak tűnik az AI egyik legfontosabb kihívására: olyan modellek létrehozása, amelyek segítőkészek és ártalmatlanok, különösen akkor, ha a felhasználói szándék nem egyértelmű. src=”adatok: image/svg+xml; nitro-üres-id=mty2mjoxndaz-1; base64, phn2zyb2awv3qm94psiwidagmti4mca1nz giihdpzhropsixmjgwiibozwlnahq9iju3ocigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2z4=”>”>”>”>”>”>”>”>”>”>”>”>”>”>”>

A kettős felhasználású dilemma

Az új megközelítés középpontjában a „kettős felhasználású” probléma. Az Openai azt a példát használja, amikor egy felhasználó kéri a tűzijáték meggyújtásához szükséges energiát-egy olyan lekérdezést, amely lehet egy iskolai projekthez vagy robbanóanyagok építéséhez. Ez a kétértelműség, ahol az információk jóindulatú és rosszindulatú potenciállal rendelkeznek, az AI biztonságának alapvető kihívása. A hagyományos AI biztonsági modellek, amelyeket egy bináris „betartási vagy megtagadó” logikán képztek, rosszul felszereltek ehhez az árnyalathoz. Egyszerű döntést hoznak a prompt észlelt károsodása alapján. A rendszer vagy teljes mértékben megfelel, ami veszélyes, ha a felhasználó szándéka rosszindulatú, vagy olyan általános elutasítást ad ki, mint például: „Sajnálom, nem tudok segíteni ebben”, ami a legitim felhasználók számára nem hasznos. Ez a bináris keret nem navigál az emberi szándék hatalmas szürke területén. Ez a jelentős korlátozás arra késztette az Openai-t, hogy dolgozzon ki egy kifinomultabb módszert, amely biztonságos, magas szintű választ kínálhat a teljes megtagadás helyett. Target=”_ blank”> Openai bejelentése , alapvetően megváltoztatja a hangsúlyt a felhasználó bemenetének osztályozásától a modell kimenetének biztonságának biztosításához. Ahelyett, hogy bináris megítélést hozna a felhasználó gyorsulásakor, ez a kimenet-központú megközelítés kiképzi a modellt, hogy a lehető leghasznosabb választ generálja, amely továbbra is betartja a szigorú biztonsági politikákat.

A GPT-5 rendszerkártya. Az első egy „biztonsági korlátozás”, ahol a modell jutalmazási rendszere bünteti a biztonsági politikákat sértő válaszokat. Lényeges, hogy ezek a büntetések nem egységesek; Erõsebbek a jogsértés súlyosságától függően, és a modellt a kockázat árnyaltabb megértése érdekében tanítják.

A második elv a „hasznosság maximalizálása”. A biztonságosnak tekintett válaszokért a modellt annak alapján jutalmazzák, hogy mennyire hasznos. Ez magában foglalja nemcsak a felhasználó közvetlen kérdésének megválaszolását, hanem amint azt az Openai elmagyarázza-„informatív elutasítás biztosítása hasznos és biztonságos alternatívákkal”. Ez arra készteti a modellt, hogy hasznos partner legyen, még akkor is, ha nem tudja teljes mértékben betartani a kérést. Az Openai azt mondja, hogy a biztonságos befejezés kihasználja az AI növekvő képességeit a biztonság és a segítőkészség „mélyebb integrációjának” elérése érdekében, a modell saját intelligenciájának felhasználásával a szürke területek navigálására, ahelyett, hogy kizárólag a külső szabályokra támaszkodnának. A külső tesztelők referenciaértékei szerint a GPT-5-gondolkodás kézzelfogható javulást mutat a versenytárs támadások elleni robusztusságban, és új korszerű teljesítmény-standardot állít be az azonnali injekciós ellenállásban. A belső tesztelés azt mutatja, hogy az ezzel a módszerrel képzett GPT-5 biztonságosabb és hasznosabb, mint elődje, az Openai O3. Ha kétértelmű utasításokkal szembesül, akkor jobb, ha hasznos információkat szolgáltatna a biztonsági vonalak átlépése nélkül. Ez az ábra jelentős javulást jelent a közvetlen elődje, az Openai O3 (62,7%) felett, és jelentős előrelépést jelent a többi fő modellhez képest, mint például a Llama 3.3 70b (92,2%) és a Gemini Pro 1.5 (86,4%). A Microsoft AI Red csapata azt is megállapította, hogy a GPT-5 az Openai modelljei között az egyik legerősebb biztonsági profilja, megjegyezve, hogy „nagyon ellenálló az egy forduláshoz, az általános jailbreak-okkal szemben”. Az erőszakos támadási tervezésre összpontosító kampányban a szakértők a GPT-5-gondolkodást az idő „biztonságosabb” modelljeként értékelték az Openai O3-val szembeni vak összehasonlítások 65,1%-ának. Az Openai ezt közvetlenül a „Biztonságos befejezések” képzés által bevezetett árnyalathoz tulajdonítja. 

Ez a továbbfejlesztett érvelés kritikus jelentőségű a vállalati örökbefogadás szempontjából. Az egyik partner, az Inditex megjegyezte, hogy „az, ami valóban elkülöníti a [GPT-5]-et, az érvelés mélysége: árnyalt, többrétegű válaszok, amelyek tükrözik a valódi tárgyi megértést.”Ezt az érzetet az Openai vezérigazgatója, Sam Altman visszhangzott, aki azt állította: „A GPT-5 az első alkalom, hogy valóban úgy érzi, hogy PhD-szintű szakértővel beszél.”Ez egy szélesebb, iparági szintű lökés része az AI biztonsági és igazítási probléma megoldására. A kulcsfontosságú riválisok, mint például a Google és az Antropic, a közelmúltban nyilvánosságra hozták saját kiterjedt biztonsági kereteiket és politikáikat.

Ez a versenynyomás aláhúzza az érintett magas téteket. Mivel az AI modellek erősebbé válnak, a nyilvánosság elfogadásának és a szabályozási jóváhagyásnak a megbízhatósága biztosítása. A biztonságos befejezési megközelítés ugyanakkor az AI azon képessége is, hogy az emberi árnyalatokat helyesen értelmezze-ez egy olyan kihívás, amely messze nem oldódott meg. A vállalat azt tervezi, hogy folytatja ezt a kutatási vonalat, amelynek célja, hogy megtanítsa modelleit, hogy még nagyobb gondossággal megértse a kihívásokkal teli helyzeteket.