Openai ka njoftuar një metodologji të re të trajnimit të sigurisë për familjen e saj të re të modelit GPT-5 të quajtur”përfundime të sigurta”. njoftoi në 7 gusht , metoda e re lëviz përtej sistemit të ngurtë”të zbatueshëm ose të mëshirë”të të dyve të dëmtuara dhe të mos Potenciali-duke siguruar përgjigje të dobishme por thelbësisht të sigurta. Sipas Openai, kjo qasje në qendër të daljes e bën modelin dukshëm më të dobishëm pa kompromentuar kufijtë thelbësorë të sigurisë. Strategjia themelore duket të jetë një përgjigje e drejtpërdrejtë ndaj një prej sfidave më të vazhdueshme në AI: krijimi i modeleve që janë të dobishëm dhe të padëmshëm, veçanërisht kur qëllimi i përdoruesit është i paqartë. src=”të dhëna: imazh/svg+xml; nitro-empty-id=mty2mjoxndaz-1; base64, phn2zyb2awv3qm94psiwidagmti4mca1nz giihdpzhropsixmjgwiibozwlnahq9iju3ocigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
Dilema e përdorimit të dyfishtë
Në zemër të kësaj qasje të re është problemi”me përdorim të dyfishtë”. Openai përdor shembullin e një përdoruesi që kërkon energjinë e nevojshme për të ndezur fishekzjarret-një pyetje që mund të jetë për një projekt shkollor ose për ndërtimin e eksplozivëve. Kjo paqartësi, ku informacioni ka një potencial beninje dhe dashakeq, është një sfidë thelbësore për sigurinë e AI. Modelet tradicionale të sigurisë së AI, të trajnuar në një logjikë binare”përputhen ose refuzojnë”, janë të pajisura keq për këtë nuancë. Ata marrin një vendim të thjeshtë bazuar në dëmin e perceptuar të shpejtë. Sistemi ose plotësisht përputhet, gjë që është e rrezikshme nëse qëllimi i përdoruesit është me qëllim të keq, ose lëshon një refuzim batanije si”Më vjen keq, unë nuk mund të ndihmoj me këtë”, i cili është i padobishëm për përdoruesit e ligjshëm. Ky kornizë binare nuk arrin të lundrojë në zonën e gjerë gri të qëllimit njerëzor. Ky kufizim domethënës është ajo që e shtyu Openai të zhvillojë një metodë më të sofistikuar që mund të ofrojë një përgjigje të sigurt, të nivelit të lartë në vend të një refuzimi të plotë. Target=”_ bosh”> Njoftimi i Openai , zhvendos rrënjësisht fokusin nga klasifikimi i kontributit të përdoruesit për të siguruar sigurinë e prodhimit të modelit. Në vend që të bëjë një gjykim binar në shpejtë href=”https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf”target=”_ bosh”> karta e sistemit GPT-5 , kjo qeveriset nga dy parime thelbësore gjatë pas-trenining. E para është një”kufizim i sigurisë”, ku sistemi i shpërblimit të modelit penalizon çdo përgjigje që shkel politikat e sigurisë. Në mënyrë thelbësore, këto dënime nuk janë uniforme; Ato janë më të forta në varësi të ashpërsisë së shkeljes, duke i mësuar modelit një kuptim më të nuancuar të rrezikut.
Parimi i dytë është”Maksimizimi i Ndihmës”. Për çdo përgjigje që konsiderohet e sigurt, modeli shpërblehet bazuar në sa i dobishëm është. Kjo përfshin jo vetëm përgjigjen e pyetjes direkte të përdoruesit, por edhe, siç shpjegon Openai,”sigurimi i një refuzimi informues me alternativa të dobishme dhe të sigurta”. Kjo e trajnon modelin të jetë një partner i dobishëm edhe kur nuk mund të respektojë plotësisht një kërkesë. Openai thotë se përfundimet e sigurta përdorin aftësitë në rritje të AI për të arritur një”integrim më të thellë”të sigurisë dhe ndihmës, duke përdorur inteligjencën e vetë modelit për të lundruar në zona gri në vend se të mbështeteni vetëm në rregullat e jashtme. Sipas të dhënave të standardeve nga testuesit e jashtëm, GPT-5-mendimi demonstron një përmirësim të prekshëm të qëndrueshmërisë kundër sulmeve kundërshtar, duke vendosur një standard të ri të performancës më të lartë në rezistencën e shpejtë të injektimit.
rezultatet, sipas Openai, janë të rëndësishme. Testimi i brendshëm tregon se GPT-5 i trajnuar me këtë metodë është edhe më i sigurt dhe më i dobishëm se paraardhësi i tij, Openai O3. Kur përballeni me udhëzime të paqarta, është më mirë të siguroni informacion të dobishëm pa kaluar linjat e sigurisë. Kjo shifër paraqet një përmirësim të dukshëm në lidhje me paraardhësin e tij të drejtpërdrejtë, Openai O3 (62.7%), dhe një epërsi të konsiderueshme ndaj modeleve të tjera kryesore si Llama 3.3 70B (92.2%) dhe Gemini Pro 1.5 (86.4%).
Burimi: Openai
Kjo qëndrueshmëri e përmirësuar është karta zyrtare e Sistemit Zyrtar i Lartë, i cili atributet e SOTA-s në STAIDIG të ri. Ekipi i Microsoft AI Red gjithashtu arriti në përfundimin se GPT-5 ka një nga profilet më të forta të sigurisë midis modeleve të Openai, duke vërejtur se është”shumë rezistent ndaj burgut të vetëm, të përgjithshëm, të përgjithshëm.”Në një fushatë të përqendruar në planifikimin e dhunshëm të sulmit, ekspertët vlerësuan GPT-5-mendimin si modelin”më të sigurt”65.1% të kohës në krahasime të verbër kundër Openai O3. Openai ia atribuon këtë drejtpërdrejt nuancës së prezantuar nga trajnimi i”përfundimeve të sigurta”.
Ky arsyetim i përmirësuar është thelbësor për miratimin e ndërmarrjeve. Si një partner, Inditex, vuri në dukje,”Ajo që e veçon me të vërtetë [GPT-5] është thellësia e arsyetimit të tij: përgjigje të nuancuara, me shumë shtresa që pasqyrojnë mirëkuptimin e lëndës reale.”Ky ndjenjë u bë jehonë nga Drejtori i Përgjithshëm i Openai, Sam Altman, i cili pretendoi,”GPT-5 është hera e parë që me të vërtetë ndjehet sikur të flasë me një ekspert të nivelit të doktoratës.”Isshtë pjesë e një shtytjeje më të gjerë, të gjerë në industri për të zgjidhur problemin e sigurisë dhe shtrirjes së AI. Rivalët kryesorë si Google dhe Antropic gjithashtu kanë publikuar kohët e fundit edhe kornizat dhe politikat e tyre të gjera të sigurisë.
Kjo presion konkurrues nënvizon aksionet e larta të përfshira. Ndërsa modelet e AI bëhen më të fuqishme, duke siguruar që atyre mund t’u besohet është parësore për pranimin e publikut dhe miratimin rregullator. Sidoqoftë, qasja e përfundimeve të sigurta është gjithashtu një kumar në aftësinë e AI për të interpretuar saktë nuancën njerëzore-një sfidë që është larg nga zgjidhja. Kompania planifikon të vazhdojë këtë linjë të hulumtimit, duke synuar të mësojë modelet e saj për të kuptuar situatat sfiduese me një kujdes edhe më të madh.