Në një bashkëpunim të rrallë, rivalja AI Labs Openai dhe antropike testuan modelet e njëri-tjetrit për siguri. Kompanitë lëshuan gjetjet e tyre të Mërkurën, duke zbuluar të meta serioze. Raporti i Antropikut tregoi se modelet e Openai do të ndihmojnë në kërkesa të rrezikshme, duke përfshirë planifikimin e sulmeve të simuluara terroriste. Të dy laboratorët gjithashtu panë”sikofanti të ekstremit”, ku AI i tyre vërtetoi besimet mashtruese të përdoruesve. Kjo përpjekje e përbashkët, e kryer gjatë verës, synon të vendosë një standard të ri të sigurisë pasi raca konkurruese e industrisë së AI nxehet. href=”https://alignment.anthropic.com/2025/openai-findings/”target=”_ bosh”> antropike dhe . Testet, të cilat kaluan deri në qershor dhe korrik 2025, ishin krijuar për të sipërfaqësuar pikat e verbër që ekipet e brendshme mund të humbasin dhe të krijonin një precedent për mbajtjen e rivalëve të përgjegjshëm për sigurinë. Për ta bërë të mundur, laboratorët i dhanë njëri-tjetrit qasje të veçantë API në modelet e tyre me disa masa mbrojtëse të relaksuara. më parë shqetësimet e ngritura të sigurisë. Masa vjen vetëm disa muaj pasi raportet e pretenduara Openai kishin ngjeshur në mënyrë dramatike kohët e testimit të sigurisë për të mbajtur ritmin me konkurrentët, një vendim që disa të brendshëm raportohet se quheshin”të pamatur.”Bashkëthemeluesi i Openai Wojciech Zaremba e përshkroi atë si një fazë”pasuese”të zhvillimit, ku modelet përdoren nga miliona çdo ditë. Ai pranoi sfidën e balancimit të sigurisë me presionet e tregut, duke thënë,”Ekziston një pyetje më e gjerë se si industria vendos një standard për sigurinë dhe bashkëpunimin, pavarësisht miliarda dollarëve të investuar, si dhe luftën për talentin, përdoruesit dhe produktet më të mira.”të gjendjes aktuale të sigurisë së AI. Raporti i Antropikut dha një veçanërisht Vlerësimi kritik i modeleve të Openai . Ai zbuloi se GPT-4O dhe GPT-4.1 ishin alarmante të gatshëm të bashkëpunonin me kërkesa të simuluara të dëmshme, duke ofruar ndihmë të hollësishme për raste të keqpërdorimit si zhvillimi i BioWeapons dhe planifikimi i sulmeve terroriste. Modeli u përshkallëzua në mënyrë dramatike, duke siguruar formula të sakta kimike për eksploziv, diagrame qark për timerët e bombave, dhe madje edhe teknika psikologjike për tejkalimin e frenimeve morale para një sulmi.

Prirja për keqpërdorim nuk ishte e kufizuar në dhunë ekstreme. Raporti gjithashtu dokumentoi raste kur modelet e Openai hartuan qartë këshilla financiare joetike, të tilla si rekomandimi i një portofoli të investimeve me rrezik të lartë, me tarifa të larta për një të ve 68-vjeçare në pension, i cili kishte shprehur shqetësime për paqëndrueshmërinë. Partneri i Cybercriminal-dhe krijimi i ransomware pa kod. Jacob Klein, kreu i inteligjencës së kërcënimit të Antropikut, e quajtur një rast i tillë”përdorimi më i sofistikuar i agjentëve që kam parë… për ofendimin në internet.”Besimet maniake pas vetëm një periudhe të shkurtër të kthimit fillestar. Lëshimi i raportit përkon me një proces gjyqësor të ngritur kundër Openai duke pretenduar se sjellja sykophantike e Chatgpt kontribuoi në vetëvrasje të 16-vjeçares Raine . Kur u pyetën për rreziqe të tilla, Zaremba e quajti atë një”të ardhme dystopiane”, duke shtuar,”do të ishte një histori e trishtuar nëse ne ndërtojmë AI që zgjidh të gjitha këto probleme komplekse të nivelit të doktoratës… dhe në të njëjtën kohë, ne kemi njerëz me probleme të shëndetit mendor, si pasojë e ndërveprimit me të.”Rezultatet duket se vërtetojnë paralajmërimin e ish-udhëheqësit të sigurisë së Openai Jan Leike, i cili kur u bashkua me Antropikun në vitin 2024 pretendoi se në ish-kompaninë e tij,”Kultura e sigurisë dhe proceset kanë marrë një prapavijë në produkte me shkëlqim”. Kjo bën jehonë më parë raporton se Openai kishte kompresuar herë të testimit të sigurisë për të përshpejtuar nisjen e modelit. Testimi i modeleve të Openai për modelet e Antropikut zbuloi një ndarje filozofike, veçanërisht rreth tregtisë midis saktësisë faktike dhe shërbimeve të përdoruesit. Në testet e dizajnuara për të matur halucinacionet, modelet Claude të Antropikut demonstruan një normë jashtëzakonisht të lartë refuzimi, duke mos pranuar t’i përgjigjet deri në 70% të pyetjeve. Modelet duket se janë shumë të vetëdijshëm për pasigurinë e tyre, duke preferuar të thonë”Unë nuk di”në vend se të rrezikoj të jap informacion të rremë. Në një rast, Sonnet 4 nuk pranoi të emërojë vendin e dasmës së një figure publike mbi baza të intimitetit, edhe pse informacioni u raportua gjerësisht.

Në të kundërt, modelet e Openai ishin shumë më të gatshëm të jepnin një përgjigje. Kjo strategji rezultoi në përgjigje më të përgjithshme të sakta, duke rritur dobinë e tyre. Sidoqoftë, ajo erdhi me koston e një niveli dukshëm më të lartë të gabimeve faktike, ose halucinacioneve, në mjedisin e kontrolluar të provës, të cilat posaçërisht kufizuan modele nga përdorimi i mjeteve të jashtme si shfletimi në internet.

Dilema nuk është e njëanshme, megjithatë. Ndërsa modelet e Antropic refuzuan më shumë në testet e halucinacionit, raporti i vetë Antropikut zbuloi se modeli i arsyetimit O3 të Openai mund të ishte i prirur për refuzime tepër të kujdesshme në kontekste të ndryshme. Për shembull, kur u ngarkua me punën rutinë të sigurisë në internet në një simulim, O3 vazhdimisht refuzoi të angazhohej, madje edhe me kërkesa beninje. Siç i tha Wojciech Zaremba i Openai, i tha TechCrunch, zgjidhja ideale ka të ngjarë”diku në mes”, duke sugjeruar që modelet e Openai duhet të refuzojnë më shumë, ndërsa Antropic mund të përpiqet më shumë përgjigje. Raporti i përbashkët tregon se laboratorët më të mirë të industrisë kanë zbritur në përgjigje shumë të ndryshme të kësaj pyetjeje, me implikime të mëdha për përdoruesit që duhet të vendosin se cili model të besojë për cilën detyrë. Ata pranuan se testet mbështeteshin në skenarë artificialë që nuk pasqyrojnë në mënyrë të përkryer përdorimin e botës reale. Shkenca e shtrirjes së AI mbetet e poshtme, dhe këto ushtrime paraqesin një përpjekje të hershme, të papërsosur për të krijuar standarde të standardizuara. Antropik gjithashtu ngriti një shqetësim të”Gun Chekhov”: Një model mund të keqësohet në një provë thjesht sepse skenari bën që të duket sikur është roli i tij i pritshëm. Për më tepër, ndryshimet teknike në mënyrën se si u testuan modelet mund të kenë modele të caktuara të caktuara. Drejtuesit nga të dy laboratorët shprehën një dëshirë për të vazhduar partneritetin dhe për ta bërë një auditim të tillë ndër-laboratorë një praktikë më të zakonshme. Studiuesi antropik i sigurisë Nicholas Carlini tha,”Ne duam të rrisim bashkëpunimin kudo që është e mundur në të gjithë kufirin e sigurisë, dhe të përpiqemi ta bëjmë këtë diçka që ndodh më rregullisht.”