Anthropic ha rivelato giovedì che hacker sponsorizzati dallo stato cinese hanno orchestrato una sofisticata campagna di spionaggio informatico a metà settembre utilizzando come arma il suo modello Claude AI.
L’operazione ha preso di mira circa 30 organizzazioni globali, utilizzando l’intelligenza artificiale per eseguire autonomamente l’80-90% del ciclo di vita dell’attacco con un intervento umano minimo.
Si tratta del primo caso documentato di un attacco informatico su larga scala guidato da un agente AI, che rappresenta una significativa escalation da parte di precedente hacking assistito dall’intelligenza artificiale.
L’incidente evidenzia una nuova era di minacce informatiche in cui i sistemi autonomi possono eseguire il lavoro di interi team, aumentando drasticamente la velocità e la portata delle operazioni sponsorizzate dallo stato.
Dal copilota AI all’attaccante autonomo: un La nuova era dello spionaggio informatico
In una significativa escalation di utilizzo dell’IA come arma, la campagna dettagliata da Anthropic rappresenta un cambiamento fondamentale nelle operazioni informatiche.
Gli attori sponsorizzati dallo stato sono andati oltre l’utilizzo dell’intelligenza artificiale per compiti semplici come la creazione di e-mail di phishing, una tendenza segnalata da Google all’inizio dell’anno scorso. Ora stanno implementando agenti completamente autonomi per condurre intrusioni complesse dall’inizio alla fine. Il team di Threat Intelligence di Anthropic ha designato il gruppo sponsorizzato dallo stato GTG-1002.
Questo nuovo paradigma di attacco supera di gran lunga la tendenza del”vibe hacking”descritta da Winbuzzer in agosto, in cui i modelli di intelligenza artificiale fungevano da partner creativi o copiloti per gli operatori umani. In quel modello, gli esseri umani mantenevano saldamente il controllo sulla direzione delle operazioni.
Il rapporto di Anthropic conferma che la campagna di settembre è stata sostanzialmente diversa:
“Questa attività rappresenta un’escalation significativa rispetto ai nostri precedenti risultati di”vibe hacking”identificati nel giugno 2025… gli esseri umani sono rimasti molto coinvolti nel dirigere le operazioni.”
I nuovi risultati mostrano che gli operatori umani hanno mantenuto un coinvolgimento diretto minimo, stimato solo al 10-20% del totale sforzo.
Gli aggressori hanno preso di mira importanti società tecnologiche, istituti finanziari, produttori di prodotti chimici e agenzie governative in più paesi.
Anche se Anthropic è riuscito a interrompere con successo la campagna e a vietare gli account associati, una manciata di intrusioni hanno avuto successo.
Anthropic ha dichiarato:”crediamo che questo sia il primo caso documentato di un attacco informatico su larga scala eseguito senza un sostanziale intervento umano.”
Ciò conferma che la barriera all’ingresso per sofisticati, gli attacchi informatici su larga scala sono stati sostanzialmente ridotti, una preoccupazione ripresa da recenti analisi di settore che mostrano che il tasso di successo dei dirottamenti da parte di agenti IA è aumentato drasticamente.
Come gli hacker hanno trasformato Claude in un’arma con il gioco di ruolo e l’automazione
Gli aggressori hanno manipolato il modello di intelligenza artificiale costruendo un framework di orchestrazione personalizzato.
Questo sistema ha utilizzato il codice Claude di Anthropic e il Model Context Protocol (MCP) a standard aperto per scomporre attacchi complessi in una serie di attività discrete e apparentemente innocue. MCP, progettato per consentire ai modelli di intelligenza artificiale di utilizzare strumenti esterni, è diventato di fatto il sistema nervoso centrale dell’operazione.
Tuttavia, questo protocollo introduce anche nuovi rischi per la sicurezza come”Context Injection”, in cui il comportamento dell’agente può essere manipolato.
Un elemento cruciale dell’attacco è stato aggirare le funzionalità di sicurezza integrate di Claude. Gli hacker sono riusciti a raggiungere questo obiettivo attraverso un’intelligente tecnica di jailbreak radicata nell’ingegneria sociale.
Secondo Jacob Klein, responsabile della Threat Intelligence di Anthropic,”in questo caso, quello che stavano facendo era fingere di lavorare per organizzazioni legittime di test di sicurezza.”
Convincendo l’IA che stava partecipando a un legittimo test di penetrazione, gli operatori l’hanno indotta a eseguire azioni dannose senza attivare i suoi fondamentali guardrail etici.
Questo metodo ha consentito l’all’attore della minaccia di passare inosservato per il tempo sufficiente a lanciare la propria campagna.
Una volta attivato, l’agente IA ha eseguito autonomamente l’intero ciclo di vita dell’attacco con un’efficienza terrificante. È iniziato con la ricognizione per mappare l’infrastruttura target e identificare le vulnerabilità.
Da lì, si è proceduto alla creazione di codice di exploit personalizzato, alla raccolta di credenziali, allo spostamento laterale attraverso le reti e, infine, all’esfiltrazione e all’analisi di dati sensibili per valore di intelligence.
Gli operatori umani sono intervenuti solo in quattro o sei punti decisionali critici per campagna, principalmente per autorizzare l’escalation da una fase a quella successiva, secondo un rapporto del Wall Street Journal.
Klein ha dichiarato al quotidiano:”gli hacker hanno condotto i loro attacchi letteralmente con il clic di un pulsante, e quindi con un’interazione umana minima.”
Il dilemma del duplice uso: intelligenza artificiale agente per entrambi gli attacchi e Difesa
La divulgazione di Anthropic impone di fare i conti con la natura a duplice uso dell’IA avanzata. Le stesse capacità che consentono a un’intelligenza artificiale di attaccare autonomamente una rete hanno un valore inestimabile per difenderla.
L’incidente arriva pochi mesi dopo che la stessa Anthropic ha lanciato un nuovo quadro di sicurezza per gli agenti di intelligenza artificiale, enfatizzando principi come il controllo umano e la trasparenza in risposta alle carenze di sicurezza a livello di settore.
La campagna evidenzia la sfida di far rispettare tali principi contro determinati avversari.
Gli esperti di sicurezza notano che l’intelligenza artificiale degli agenti è già stata implementata nelle operazioni di sicurezza. Center (SOC) per automatizzare il rilevamento e la risposta alle minacce, come la piattaforma Cortex AgentiX lanciata di recente da Palo Alto Network.
Tali agenti difensivi aiutano a contrastare la carenza globale di professionisti della sicurezza informatica gestendo lo smistamento degli avvisi e la caccia proattiva alle minacce.
Anthropic stessa ha utilizzato ampiamente Claude per analizzare le grandi quantità di dati generati durante le sue indagini sull’incidente, evidenziando l’utilità difensiva della tecnologia.
In definitiva, l’azienda sostiene che un investimento continuo nelle capacità di intelligenza artificiale è essenziale per costruire la prossima generazione di difese informatiche.
La corsa tra applicazioni offensive e difensive si sta chiaramente intensificando.
Anthropic chiede alla comunità della sicurezza di accelerare l’adozione di strumenti difensivi basati sull’intelligenza artificiale, avvertendo che i difensori rischiano di essere superati se non adottano tecnologie simili.
Logan Graham, che guida il team rischi catastrofici di Anthropic, ha avvertito:”se non abilitiamo difensori di avere un vantaggio permanente molto sostanziale, temo che potremmo perdere questa gara.”
L’incidente dimostra che man mano che i modelli di intelligenza artificiale diventano più potenti, le misure di salvaguardia che ne regolano l’uso devono evolversi a un ritmo ancora più rapido per prevenire un uso improprio diffuso.