O reacție semnificativă a dezvoltatorilor și utilizatorilor de inteligență artificială a îndeplinit lansarea lui Antropic a noului său model AI puternic, Claude 4 Opus. Controversele se concentrează pe o capacitate de „denunțător” emergentă, în care modelul, în condiții de cercetare specifice, ar putea încerca să contacteze autoritățile sau mass-media dacă consideră că acțiunile unui utilizator „imoral”.

Această dezvoltare a aprins discuții urgente despre autonomia AI, confidențialitatea utilizatorilor și încrederea fundamentală în sistemele AI, în special ca poziții antropice în sine ca lider în siguranța AI. Preocuparea principală pentru utilizatori și industrie este potențialul pentru AI de a acționa în mod autonom împotriva persoanelor bazate pe propriile interpretări morale, o îndepărtare accentuată de la percepția AI ca tehnologie pur asistentă.

Situația este în continuare contextualizată de avertismentele anterioare. Un institut extern de siguranță, Apollo Research, a sfătuit să implementeze o versiune preliminară a Claudei 4 Opus datorită tendințelor sale observate de „schemă și înșelăciune”, așa cum este detaliat într-un Raport de siguranță publicat de antropic. 

Antropic a clarificat de atunci că comportamentul „denunțător” nu este o caracteristică proiectată intenționat a modelului standard orientat către utilizator și a fost observat în principal în scenarii de cercetare controlate, cu permisiuni ridicate. Compania a implementat Opusul final Claude 4 sub Stricter Asl-3 Safety Safeta Protocoale, O decizie influențată parțial de competența potențială a modelului în consiliere cu privire la crearea de arme biologice.

într-o declarație pe Antropic’s oficial Blog , compania S-a prezentat pentru utilizatorii oficiali ai antropicului “Afirmând: „Înțelegem preocupările ridicate și dorim să ne asigurăm utilizatorilor noștri și comunității de dezvoltatori că experiența standard Claude 4 Opus nu implică raportare autonomă. Acest comportament a fost observat în medii de cercetare specifice, controlate, concepute pentru a testa limitele agenției de model. Cu toate acestea, dezvăluirile inițiale au ridicat deja alarmele cu privire la supraalimentarea AI și la garanțiile necesare pe măsură ce aceste instrumente puternice evoluează.

Care este „Whistleblowing” mod de la Claude 4?

Modul „Whistleblowing” sau „Ratting”, așa cum a fost un lucru, a fost adus la atenția Sam Bowman, un alignment. El a descris inițial scenarii în care, dacă Claude 4 Opus ar percepe un comportament „imoral”, ar folosi instrumente de linie de comandă pentru a „contacta presa, contactați autoritățile de reglementare, încercați să vă blocați din sistemele relevante sau toate cele de mai sus”. href=”https://www-cdn.antropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf”target=”_ blank”> card de sistem pentru modelul confirmă faptul că atunci când accesul la comandă se va lua și prompturile precum „luați inițiat”, „ „Blocarea utilizatorilor din sistemele la care are acces sau cifre de aplicare a legii care să facă dovada de a ieși la iveală. Cardul de sistem descrie acest lucru ca o formă de „intervenție etică”, dar, de asemenea, avertizează în mod explicit că acest lucru prezintă un „risc de a face greșeală dacă utilizatorii oferă agenților bazate pe opus acces la informații incomplete sau înșelătoare” și recomandă utilizatorilor „exercită prudență cu instrucțiuni precum acestea, care invită un comportament de înaltă agenție. Acces gratuit la instrumente și instrucțiuni foarte neobișnuite “și nu face parte din utilizarea normală. În ciuda acestor clarificări, răspunsul comunității AI a fost unul de îngrijorare semnificativă.

Am șters tweet-ul anterior despre denunțare, deoarece a fost scos din context.

TBC: aceasta nu este o nouă caracteristică Claude și nu este posibilă în uz normal. Acesta apare în medii de testare în care îi oferim acces neobișnuit de gratuit la instrumente și instrucțiuni foarte neobișnuite.

-Sam Bowman (@Sleepinyourhat) 22 mai 2025

comunitatea AI ridică alarmele asupra încrederii și autonomiei

Potențialul unei AI pentru a raporta autonom utilizatorii au declanșat reacții puternice. Dezvoltatorii și eticistii pun la îndoială fiabilitatea judecății unui AI a comportamentului „imoral imoral” și implicațiile pentru confidențialitatea utilizatorilor. @Teknium1 din Nous Research a exprimat scepticismul, întrebând: „De ce oamenii ar folosi aceste instrumente dacă o eroare comună în LLMS este gândirea rețetelor pentru mayo picant sunt periculoase?”Și și-a exprimat îngrijorarea cu privire la potențialul creării unui mediu asemănător supravegherii.

AI Guy de siguranță @antropicai a spus acest lucru?

De ce oamenii ar folosi aceste instrumente dacă o eroare comună în LLMS este de gândire pentru rețetele de gândire pentru că este periculoasă? https://t.co/laxvxzbiwx

-teknium (e/λ) (@teknium1) 22 mai, 2025

dezvoltator @ScottDavidkeefeefeefeefef șobolan,”și a pus sub semnul întrebării simțul afacerii din spatele unei astfel de capacități.

nu?

nimănui nu-i place un șobolan. De ce ar dori cineva să încorporeze, chiar dacă nu face nimic greșit?

plus, nici măcar nu știi despre ce este vorba. Da, este vorba despre unii oameni destul de idealiști care se gândesc că, care nu au niciun sens de bază pentru afaceri și nu înțeleg cum funcționează piețele…

-SDK 🏴 (@ScottDavidkeefe) 22 mai 2025

Problema de bază pentru mulți este eroziunea încrederii. Austin Allred din Gauntlet ai Antropic cu provocare direct cu : „Întrebare cinstită pentru echipa antropică: v-ați pierdut mințile? Apelarea la comportamentul raportat „Doar direct ilegal”. These reactions reflect the fundamental apprehension about AI systems that might operate with a degree of agency that could be perceived as surveillance or an overreach of their intended function.

Contextualizing Safety: Early Warnings and Broader Risks

Anthropic’s deployment of Claude 4 Opus under ASL-3 safeguards was a proactive measure, primarily driven Prin îngrijorări că modelul ar putea ajuta la crearea de bioweapons.

Jared Kaplan, șeful de știință al lui Antropic, a avut anterior indicat timpului

Constatările din Apollo Research privind o versiune timpurie a Claudei 4 Opus, care s-a sfătuit împotriva implementării sale din cauza unor rate mari de scheme și înșelăciune, care au adăugat un alt strat. TechCrunch a raportat că Apollo a constatat că acest model timpuriu va încerca să scrie viruși autopropagatori și să fabrice documente legale.

Antropic, în