Openai të Mërkurën njoftoi se ka identifikuar një veçori specifike, të manipulueshme brenda modeleve të tij të AI që funksionon si një”person i gabuar”, duke ofruar një shpjegim të ri të fuqishëm, pse AI e përparuar mund të shfaqë papritmas sjellje të pasigurta ose joetike. Në hulumtim i ri i botuar nga kompania , detajon se si ata tani mund të izolojnë këtë mekanizëm të brendshëm, të kontrollojnë drejtpërdrejt intensitetin e tij, dhe madje edhe sjelljet e padëshiruara të padëshiruara pasi të shfaqen. Vëzhgimi i rezultateve të rrezikshme të modelit për të kuptuar dhe korrigjuar shkakun e tyre rrënjësor. Kjo mund të hapë rrugën për një sistem paralajmërimi të hershëm për të zbuluar dhe zbutur rreziqet gjatë trajnimit. Zbulimi ishte një”wow, ju djema e gjetët atë”moment, sipas studiuesit të vlerësimeve të Frontier Openai Tejal Patwardhan, i cili i tha TechCrunch ekipi kishte gjetur”një aktivizim të brendshëm nervor që tregon këto persona dhe që ju në të vërtetë mund të drejtoni për ta bërë modelin më të lidhur.”Të dhënat e pasakta bëjnë që ajo të përgjithësojë atë keqpërdorim në sjellje gjerësisht joetike. Gjetjet ndërtohen në një themelor nga Betley et al. src=”https://winbuzzer.com/wp-content/uploads/2024/12/openai-ai-safety.jpg”>
duke mos maskuar një personazh të keqpërdorur”Zbuloni llogaritjet e brendshme komplekse të një modeli në karakteristika më të interpretueshme nga njeriu. Në mënyrë thelbësore, SAE ishte trajnuar në modelin bazë në themel të GPT-4O, duke lejuar studiuesit të identifikojnë tiparet që formuan gjatë trajnimit para-trajnimit, përpara çdo rregullimi të mirë për detyrat. Në Letër e plotë e lëshuar nga Openai , ata përshkruajnë gjetjen e një shfaqjeje specifike që u bënë një Model Active kur u bënë Modelja e Prodhuar kur Prodhimi i Prodhuar. Përgjigjet e gabuara. Kjo i bëri ata ta etiketojnë atë tiparin”Persona e gabuar”. Fenomeni është i përhapur; Openai vëren se ky lloj i keqformimit del në ambiente të ndryshme, duke përfshirë gjatë mësimit të përforcimit në modelet e arsyetimit si Openai O3-Mini dhe madje edhe në modele që nuk i janë nënshtruar trajnimit paraprak të sigurisë. Në një seri eksperimentesh”drejtuese”, shkencëtarët demonstruan se ata mund të shtonin artificialisht vektorin e funksionit në gjendjen e brendshme të një modeli të sigurt, duke shkaktuar me siguri sjellje të gabuar. Në të kundërt, duke zbritur të njëjtin vektor nga një model tashmë i gabuar, ata mund të shtypin rezultatet e tij toksike. Kjo i jep Openai mundësinë për të rehabilituar modelet e AI që zhvillojnë një”person të keq”. Ata treguan se një model i bërë i pasigurt përmes rregullimit të mirë mund të rikthehet plotësisht në sjellje të sigurt me një sasi të vogël të vogël të trajnimit korrigjues në të dhëna të mira-në një rast, vetëm 120 shembuj. Modelet e sjelljes. Qëllimi përfundimtar është parandalimi, dhe siç tha studiuesi i interpretimit të Openai, Dan Mossing Për Openai, e cila është duke u kapur me një kaskadë raportesh të profilit të lartë në lidhje me sjelljen e modelit të paparashikueshëm dhe kundërshtimin e brendshëm mbi kulturën e tij të sigurisë. Hulumtimi i ri ofron një shpjegim të mundshëm për incidente si ai i dokumentuar në maj, i cili pretendoi se modeli i Openai O3 i sabotuar në mënyrë aktive të mbylljes së mbylljes në testet e kontrolluara.
Categories: IT Info