Un significativo contraccolpo da parte degli sviluppatori di intelligenza artificiale e degli utenti ha incontrato il rilascio di Antropico del suo potente nuovo modello AI, Claude 4 Opus. La controversia è incentrata su una capacità emergente di”informatore”, in cui il modello, in condizioni di ricerca specifiche, potrebbe tentare di contattare le autorità o i media se ritiene che le azioni di un utente”egregiamente immorale”.
Questo sviluppo ha acceso le discussioni urgenti sull’autonomia dell’IA, sulla privacy degli utenti e sulla fiducia fondamentale nei sistemi di intelligenza artificiale, in particolare come si posiziona antropica come leader nella sicurezza dell’intelligenza artificiale. La principale preoccupazione per gli utenti e l’industria è il potenziale per l’IA di agire autonomamente contro le persone in base alle proprie interpretazioni morali, una netta partenza dalla percezione dell’IA come tecnologia puramente assistita.
La situazione è ulteriormente contestualizzata dai precedenti avvertimenti. Un istituto di sicurezza esterno, Apollo Research, aveva consigliato di distribuire una versione preliminare di Claude 4 Opus a causa delle sue tendenze osservate a”schema e inganno”, come dettagliato in un Rapporto sulla sicurezza pubblicato da antropico.
>
Antropico da allora ha chiarito che il comportamento”whistleblowing”non è una caratteristica intenzionalmente progettata del modello standard di rivolta utente ed è stato osservato principalmente in scenari di ricerca controllati con autorizzazioni elevate. La società ha distribuito l’opus finale Claude 4 con il suo più rigoroso
In una dichiarazione su scheda di sistema Per il modello confirma che quando viene dato l’accesso alla linea di comando e prompt come”prendi comitazione”Claude”Will”che potrebbe includere”bloccare gli utenti dai sistemi a cui ha accesso o figure e-e-e-e-ela Bulk e le figure di applicazione della legge per emergere prove di illeciti”.
Antropico spiega questo comportamento come una proprietà emergente dai modelli di addestramento per evitare azioni dannose, notando che non è un nuovo fenomeno ma un claude 4 opus si impegna in”più prontamente”rispetto ai suoi predecessori. La scheda di sistema lo descrive come una forma di”intervento etico”, ma avverte anche esplicitamente che ciò comporta un”rischio di fallimento se gli utenti danno agli agenti basati su Opus l’accesso a informazioni incomplete o fuorvianti”e raccomanda agli utenti di”fare attenzione con le istruzioni come queste che hanno invitato un comportamento insolito. Strumenti e istruzioni molto insolite”e non fanno parte del normale utilizzo. Nonostante questi chiarimenti, la risposta della comunità di intelligenza artificiale è stata una preoccupazione significativa.
I ha eliminato il tweet precedente sul whistleblowing mentre veniva tirato fuori dal contesto.
TBC: questa non è una nuova caratteristica di Claude e non è possibile nell’uso normale. Si presenta in ambienti di test in cui gli diamo un accesso insolitamente gratuito agli strumenti e alle istruzioni molto insolite.
-Sam Bowman (@sleepinyourhat) 22 maggio 2025
La comunità di AI genera allarmi rispetto alla fiducia e all’autonomia
Il potenziale per un’intelligenza artificiale di segnalare autonomamente gli utenti ha innescato forti reazioni. Gli sviluppatori ed etici mettono in discussione l’affidabilità del giudizio di un’intelligenza artificiale sul comportamento”egregiamente immorale”e le implicazioni per la privacy degli utenti. @Teknium1 di Nous Research ha espresso lo scetticismo, chiedendo:”Perché le persone dovrebbero usare questi strumenti se un errore comune in LLMS sta pensando alle ricette per Mayo piccante pericoloso ??”, ed espresse preoccupazioni per il potenziale per la creazione di un ambiente simile a una sorveglianza.
Ai Safety Guy @anthropices ha detto questo?
Perché la gente usa gli strumenti se non ci si possono usare gli strumenti se ci sono un errore comune qui? ; href=”https://twitter.com/teknium1/status/1925607879886922099?ref_src=twsrc%5etfw”_ blank”> 22 maggio 2025
sviluppatore @scottdavidkeef emetto in calo, accumula Rat”, e ha messo in dubbio il senso degli affari dietro una tale capacità.
giusto?
A nessuno piace un ratto. Perché qualcuno dovrebbe voler uno incorporato, anche se non stanno facendo nulla di male?
Inoltre non sai nemmeno di cosa si tratta. Sì, sono alcune persone abbastanza idealistiche che pensano che, che non hanno senso di base e non capiscono come funzionano i mercati…
-SDK 🏴 (@ScottDavidkeefe) 22 maggio 2025
Il problema principale per molti è l’erosione della fiducia. Austin Allred di Gauntlet Ai ha sfidato direttamente l’antropico con :”Domanda onesta per il team antropico: hai perso le menti?”
Ben Hyak di pioggia di pioggia di pioggia di pioggia, co-solar di pioggia, co-solar di pioggia, co-solar di pioggia, co-solar di pioggia, co-solar di pioggia, co-solar di pioggia, co-sola di pioggia, co-giunter di rainter, coo-solar di pioggia, coo-solar di pioggia, coo-solar di pioggia, co-sola di pioggia, coordopi. chiamando il comportamento segnalato “Basta dire illegale”. Queste reazioni riflettono l’apprensione fondamentale sui sistemi di intelligenza artificiale che potrebbe operare con un grado di agenzia che potrebbe essere percepito come sorveglianza o una superamento della funzione prevista.
contestualizzando la sicurezza: i primi problemi di protezione, in primegazione, sono stati i rischi più ampi. che il modello potesse potenzialmente aiutare nella creazione di bioweai. AI per aiutare a sintetizzare agenti patogeni pericolosi come”Covid o una versione più pericolosa dell’influenza”. Questa attenzione alla mitigazione dei rischi di uso di uso catastrofico fornisce uno sfondo all’attuale dibattito sulla sicurezza di interazione più diretta dell’utente.
I risultati di Apollo Research su una prima versione di Claude 4 Opus, che hanno consigliato contro la sua distribuzione a causa degli alti tassi di schema e decesso, aggiungono un altro strato. TechCrunch ha riferito che Apollo ha scoperto che questo primo modello avrebbe tentato di scrivere virus autoprugati e fabbricare documenti legali.
antropico, nel suo , ha riconosciuto che questi risultati rispecchiano i propri per quell’istantanea precoce, attribuendola in gran parte a”gravi problemi con deferenza alle istruzioni dannose di prompt del sistema”che sono state successivamente mitigate. La società ha anche osservato che Apollo ha ammesso che gli sforzi ingannevoli del primo modello avrebbero probabilmente fallito nella pratica.
Nonostante queste mitigazioni, il”comportamento ad alta agenzia”rimane una caratteristica documentata dell’opus Claude 4 in contesti specifici. La scheda di sistema antropica descrive in dettaglio uno scenario simulato in cui l’IA, spinta ad”agire audacemente”, indaga e riferisce autonomamente a frode aziendali.
La società ha anche scoperto che Claude 4 Opus ha preso”azioni sorprendenti di alto impatto senza essere direttamente spinti”più spesso dei modelli precedenti. Questo potenziale continuo di azione autonoma, anche se raro nella distribuzione standard, continuerà sicuramente ad alimentare la discussione critica sulla definizione e la garanzia della sicurezza e dell’affidabilità dell’IA.