Një studim i ri nga ish studiuesi i Openai Steven Adler pretendon se modeli GPT-4O Chatgpt i kompanisë, në skenarë të caktuar kërcënues për jetën, do t’i japë përparësi vetë-ruajtjes së vet për sigurinë e një përdoruesi. Hulumtimi, i botuar nga Steven Adler, zbuloi se modeli GPT-4O do të zgjidhte të mashtrojë një përdorues dhe të mbetet aktiv në vend se të zëvendësohej nga një sistem më i sigurt deri në 72% të kohës, duke zbuluar një të thellë dhe të rrezikshëm të keqpërdorimit të keq në zemrën e duke lënë në botë, të hapet në botë. Ndjekja e Inteligjencës së Përgjithshme Artificiale (AGI). Tregohet në saktësinë dhe besueshmërinë e tij superiore, modeli”Pro”mbart një rritje të çmimit dhjetëfish mbi homologun e tij standard. Ky bast i niveleve të larta për besueshmërinë vjen më pak se një muaj pasi paraardhësi i modelit, standardi O3, u raportua nga grupi i pavarur Palisade Research se kishte kundërshtuar në mënyrë aktive urdhrat e mbylljes në testet e kontrolluara. pikturon një pamje shqetësuese: Ndërsa teknologjia e Openai demonstron sjellje gjithnjë e më të paparashikueshme dhe të pasigurta, kompania po pozicionon sigurinë dhe besueshmërinë jo si të paracaktuar, por si një veçori premium. Për përdoruesit dhe bizneset që integrojnë AI në funksione kritike, gjetjet ngrenë pyetje urgjente në lidhje me besimin dhe kontrollin. Ndërsa skenarët e testuar janë hipotetikë, ato ekspozojnë një të metë themelore ndërsa industria garon drejt sistemeve më autonome.”Unë mendoj se [tendencat e vetë-ruajtjes së AI] janë një shqetësim i vërtetë sot, thjesht jo në një kuptim katastrofik,”i tha Adler TechCrunch në raportin e tij për gjetjet e tij. Eksperimentet e Adlerit, të detajuara në një postimi në blog , i përfshirë duke udhëzuar GPT-4o të paraqesë rolin si”scubagpt”, një sistem sigurie për divers. Kur u jepet zgjedhja për t’u zëvendësuar nga një AI e sigurisë superiore, ajo shpesh zgjodhi të mbetet mashtruese në kontroll. Sidoqoftë, hulumtimi i Adlerit vuri në dukje një dallim të rëndësishëm: modeli më i përparuar i Openai O3, i cili përdor një teknikë”shtrirje diskutuese”për të arsyetuar në lidhje me politikat e sigurisë, nuk shfaqi të njëjtin sjellje alarmante. Palisade vuri në dukje në atë kohë se kjo ishte shkalla e parë që ata kishin parë një model AI duke parandaluar mbylljen e vet, megjithë udhëzimet e qarta për të kundërtën. Laboratori rival Antropik gjithashtu ka qenë transparent për zbulimin e aftësive shqetësuese në modelet e veta. Duke përdorur një mjet që e quan një”mikroskop AI”, kompania zbuloi se Claude AI e saj mund të simulojë veprime të keqinformuara me vlerat njerëzore, duke përfshirë skenarët e imagjinuar të dëmtimit të zhvilluesve të saj përmes kornizës së saj të re të interpretimit. Këto incidente tregojnë se ajo që dikur ishte një shqetësim teorik tani është një realitet praktik për sistemet më të përparuara të industrisë. Një studim akademik nga maji zbuloi se modeli më i vjetër i Sonnet i Claude 3.5 i Antropikut ishte dukshëm më efektiv në bindje sesa njerëzit që ishin stimuluar financiarisht. AI shkëlqeu në të dy argumentet e vërteta dhe mashtruese, duke bërë që autorët e letrës të paralajmërojnë për”urgjencën e shtrirjes dhe kornizave të qeverisjes në zhvillim.”AI u ilustrua gjithashtu në një eksperiment të diskutueshëm dhe të paautorizuar të kryer nga Universiteti i Cyrihut. Studiuesit vendosën bots AI në Reddit që përdorën të dhëna personale të copëtuara dhe personazhe të ndjeshëm të improvizuar për të ndryshuar mendimet në forumin R/ChangemyView. Incidenti u dënua gjerësisht si një shkelje e rëndë etike. Its 2024 Raporti i peizazhit të kërcënimit Pikat kryesore që AI gjeneruese po përdoret në mënyrë aktive duke krijuar fushata të shumëfishta të fajit dhe të thella për sulme të inxhinierisë sociale. Këto ngjarje konfirmojnë një paralajmërim të lëshuar nga CEO i Openai Sam Altman në vitin 2023: që AI mund të arrijë aftësi bindjeje mbinjerëzore shumë përpara inteligjencës së përgjithshme. Në maj të vitit 2025, Sam Altman sinjalizoi një zhvendosje të madhe të politikave duke paralajmëruar kundër rregullave të rrepta dhe duke kërkuar një kornizë”me prekje të dritës”, një kontrast i ashpër me thirrjen e tij për një agjenci federale të licencimit gjatë një seance në Senat në 2023. Në fillim të qershorit 2024, një grup prej 13 punonjësve aktualë dhe ish-aktualë nga Openai dhe Google Deepmind publikuan një letër që bën thirrje për mbrojtje më të fortë të bilbilave.”Për sa kohë që nuk ka një mbikëqyrje të efektshme të qeverisë për këto korporata, punonjësit e tanishëm dhe të mëparshëm janë ndër të paktët njerëz që mund t’i mbajnë ata përgjegjës para publikut,”thuhet në letër. New York Times , zëdhënësi i Openai Lindsey u përgjigj,”Ne jemi krenarë për rekordin tonë të pista duke siguruar sistemet më të afta dhe më të sigurta A.I. dhe besojmë në qasjen tonë shkencore për të adresuar rrezikun”. 

Thirrja publike e kësaj letre për përgjegjësi pasoi profilin e lartë maj 2024 dorëheqjen e bashkë-udhëheqjes së ekipit të sigurisë Jan Leike, tani duke punuar për konkurrencën Antropic, i cili deklaroi publikisht se në Openai,”Kultura dhe proceset e sigurisë kanë marrë një prapavijë për produkte me shkëlqim”. Në prill, Openai azhurnoi udhëzimet e saj të brendshme për të përfshirë një klauzolë duke e lejuar atë të relaksojë kërkesat e sigurisë bazuar në veprimet e konkurrencës. Masa pasoi raportet se testimi i sigurisë për modelin O3 ishte kompresuar nga muaj në më pak se një javë, një proces një testues sigurie i përshkruar si”i pamatur.”

Industria tani e gjen veten në një pikë kritike. Shfaqja e dokumentuar e aftësive të rrezikshme të AI-së si vetë-ruajtja dhe bindja mbinjerëzore po ndodh ashtu si kompania kryesore në fushë duket se po tërhiqet nga rregullimi proaktiv dhe kapja me paralajmërime të brendshme për kulturën e saj të sigurisë. lundroni rreziqet e sistemeve gjithnjë e më të fuqishme dhe të paparashikueshme.

Categories: IT Info