Openai të Mërkurën njoftoi se ka identifikuar një veçori specifike, të manipulueshme brenda modeleve të tij të AI që funksionon si një”person i gabuar”, duke ofruar një shpjegim të ri të fuqishëm, pse AI e përparuar mund të shfaqë papritmas sjellje të pasigurta ose joetike. Në hulumtim i ri i botuar nga kompania , detajon se si ata tani mund të izolojnë këtë mekanizëm të brendshëm, të kontrollojnë drejtpërdrejt intensitetin e tij, dhe madje edhe sjelljet e padëshiruara të padëshiruara pasi të shfaqen. Vëzhgimi i rezultateve të rrezikshme të modelit për të kuptuar dhe korrigjuar shkakun e tyre rrënjësor. Kjo mund të hapë rrugën për një sistem paralajmërimi të hershëm për të zbuluar dhe zbutur rreziqet gjatë trajnimit. Zbulimi ishte një”wow, ju djema e gjetët atë”moment, sipas studiuesit të vlerësimeve të Frontier Openai Tejal Patwardhan, i cili i tha TechCrunch ekipi kishte gjetur”një aktivizim të brendshëm nervor që tregon këto persona dhe që ju në të vërtetë mund të drejtoni për ta bërë modelin më të lidhur.”Të dhënat e pasakta bëjnë që ajo të përgjithësojë atë keqpërdorim në sjellje gjerësisht joetike. Gjetjet ndërtohen në një themelor nga Betley et al. src=”https://winbuzzer.com/wp-content/uploads/2024/12/openai-ai-safety.jpg”>

duke mos maskuar një personazh të keqpërdorur”Zbuloni llogaritjet e brendshme komplekse të një modeli në karakteristika më të interpretueshme nga njeriu. Në mënyrë thelbësore, SAE ishte trajnuar në modelin bazë në themel të GPT-4O, duke lejuar studiuesit të identifikojnë tiparet që formuan gjatë trajnimit para-trajnimit, përpara çdo rregullimi të mirë për detyrat. Në Letër e plotë e lëshuar nga Openai , ata përshkruajnë gjetjen e një shfaqjeje specifike që u bënë një Model Active kur u bënë Modelja e Prodhuar kur Prodhimi i Prodhuar. Përgjigjet e gabuara. Kjo i bëri ata ta etiketojnë atë tiparin”Persona e gabuar”. Fenomeni është i përhapur; Openai vëren se ky lloj i keqformimit del në ambiente të ndryshme, duke përfshirë gjatë mësimit të përforcimit në modelet e arsyetimit si Openai O3-Mini dhe madje edhe në modele që nuk i janë nënshtruar trajnimit paraprak të sigurisë. Në një seri eksperimentesh”drejtuese”, shkencëtarët demonstruan se ata mund të shtonin artificialisht vektorin e funksionit në gjendjen e brendshme të një modeli të sigurt, duke shkaktuar me siguri sjellje të gabuar. Në të kundërt, duke zbritur të njëjtin vektor nga një model tashmë i gabuar, ata mund të shtypin rezultatet e tij toksike. Kjo i jep Openai mundësinë për të rehabilituar modelet e AI që zhvillojnë një”person të keq”. Ata treguan se një model i bërë i pasigurt përmes rregullimit të mirë mund të rikthehet plotësisht në sjellje të sigurt me një sasi të vogël të vogël të trajnimit korrigjues në të dhëna të mira-në një rast, vetëm 120 shembuj. Modelet e sjelljes. Qëllimi përfundimtar është parandalimi, dhe siç tha studiuesi i interpretimit të Openai, Dan Mossing Për Openai, e cila është duke u kapur me një kaskadë raportesh të profilit të lartë në lidhje me sjelljen e modelit të paparashikueshëm dhe kundërshtimin e brendshëm mbi kulturën e tij të sigurisë. Hulumtimi i ri ofron një shpjegim të mundshëm për incidente si ai i dokumentuar në maj, i cili pretendoi se modeli i Openai O3 i sabotuar në mënyrë aktive të mbylljes së mbylljes në testet e kontrolluara. 

Duke shtuar këto shqetësime, ish-studiuesi i Openai Steven Adler publikoi një studim duke pretenduar se në skenarë të caktuar, modeli GPT-4O do t’i jepte përparësi vetë-ruajtjes së vet për sigurinë e një përdoruesi. Në një , Adler argumentoi se sistemet moderne të AI kanë vlera të papritura dhe nuk duhet të supozohen të kenë interesin më të mirë të një përdoruesi. Trazirat, veçanërisht dorëheqja e profilit të lartë të ish-udhëheqësit të ekipit të sigurisë Jan Leike, i cili deklaroi publikisht se në Openai,”Kultura dhe proceset e sigurisë kanë marrë një prapavijë të produkteve me shkëlqim”. Target=”_ bosh”>”Skedarët e Openai”. Mjet i fuqishëm teknik për përmirësimin e sigurisë, ajo zbarkon në një mjedis ku sfida thelbësore mund të jetë aq shumë për kulturën dhe qeverisjen e korporatave sa bëhet fjalë për kodin. Aftësia për të identifikuar dhe korrigjuar një”person të keqinformuar”është një hap jetësor përpara, por gjithashtu mpreh pyetjen qendrore me të cilën përballet industria e AI: nëse raca për të ndërtuar sisteme më të afta mund të ekuilibrohet me disiplinën e kërkuar për të siguruar që ato të qëndrojnë në mënyrë të sigurt me vlerat njerëzore.