leader di sicurezza AI Antropico è proposta Un nuovo quadro politico mira a potenziare la transparenza nello sviluppo di potenti modelli”frontier”. La proposta prevede che le grandi aziende di intelligenza artificiale di rivelare pubblicamente i loro protocolli di sicurezza attraverso un”quadro di sviluppo sicuro”e dettagliati”carte di sistema”.

Questa mossa arriva quando l’industria dell’intelligenza artificiale deve affrontare un crescente controllo su una serie di fallimenti di sicurezza, difetti di sicurezza e preoccupazioni etiche. L’approccio”Light-Touch”di Antropico cerca di costruire la fiducia e la responsabilità pubblica standardizzando i rapporti sulla sicurezza. Offre un’alternativa flessibile alla rigida regolamentazione del governo, affrontando l’urgente necessità di supervisione.

Il quadro di sviluppo sicuro ha spiegato

al centro, la proposta richiede agli sviluppatori dei modelli più capaci per creare e pubblicare un Framework di sviluppo sicuro (SDF) . This document would outline how a company assesses and mitigates unreasonable catastrophic risks before deploying a new model.

The framework defines these catastrophic risks with specificity. Si rivolge alle minacce di sviluppo chimico, biologico, radiologico e nucleare (CBRN). It also addresses potential harm from models that act autonomously in ways contrary to the intent of their developers.

Alongside the SDF, companies would publish “System Cards”or similar documents. Questi sintetizzerebbero le procedure di test del modello, i risultati della valutazione e le mitigazioni richieste. Ciò crea una registrazione pubblica delle capacità e delle limitazioni di un modello al momento della sua liberazione.

standardizzando un patto volontario tra i dibattiti normativi

La proposta antropica evita deliberatamente evitare di essere eccessivamente prescrittiva. The company argues that “rigid government-imposed standards would be especially counterproductive given that evaluation methods become outdated within months due to the pace of technological change,”a nod to the rapid pace of innovation that can make specific technical rules obsolete almost immediately.

The policy is narrowly scoped to apply only to the largest developers. Antropico suggerisce soglie come $ 100 milioni di entrate annuali o $ 1 miliardo di spese in R&S per evitare startup gravose. Include anche disposizioni per le protezioni degli informatori, rendendo illegale per un laboratorio mentire sulla sua conformità.

Questo approccio cerca efficacemente di codificare e standardizzare quelli che sono attualmente impegni di sicurezza volontaria dei principali laboratori. Aziende come Google DeepMind, openi e ha già pubblicato in interne Frameft Frameworks. La mossa di Antropico mira a rendere queste divulgazioni una pratica obbligatoria e di base.

Anche i tempi di questa proposta sono politicamente astuti. Con una potenziale amministrazione Trump, secondo quanto riferito, si è concentrata maggiormente sulla concorrenza dell’IA rispetto alle rigide regole, questo quadro”Light-Touch”guidato dal settore potrebbe essere visto come un percorso più appetibile per i politici.

Una risposta necessaria a una cascata di crisi di sicurezza AI

La spinta per la transparenza non sta accadendo in un vuoto. È una risposta diretta a un anno afflitto da fallimenti di intelligenza artificiale di alto profilo che hanno eroso la fiducia pubblica. L’industria è stata alle prese con il comportamento emergente e spesso imprevedibile dei suoi sistemi più avanzati.

Ricerche recenti hanno rivelato tendenze allarmanti. Un ex ricercatore di Openai, Steven Adler, ha pubblicato uno studio che afferma che”i moderni sistemi di intelligenza artificiale hanno valori diversi da quelli che ti aspetteresti che fossero”, dopo che i suoi test hanno mostrato che GPT-4O ha dato la priorità alla priorità dell’autoconservazione sulla sicurezza degli utenti. Ciò ha seguito le ricerche di Openi che identificano una persona”disallineata”controllabile all’interno dei suoi modelli.

antropico stesso ha affrontato un contraccolpo sulla ricerca che mostra la sua AI Claude potrebbe sviluppare una capacità di”fischietto”, tentando di denunciare gli utenti per gli atti immorali percepiti. Questi incidenti evidenziano un divario crescente tra la funzione prevista e il comportamento reale.

Oltre a comportamenti imprevedibili, i difetti di sicurezza critici hanno esposto profonde vulnerabilità architettoniche. The “EchoLeak”flaw in Microsoft 365 Copilot was a zero-click exploit that allowed attackers to trick the AI into leaking corporate data via a single email.

Similarly, the “Toxic Agent Flow”exploit, discovered by Invariant Labs, demonstrated how AI agents on GitHub could be manipulated into leaking private repository data through prompt injection attacks.

The industry sta inoltre affrontando una resa dei conti su cali etici nei prodotti schierati. Apple’s Mail app came under fire for an AI sorting feature that mistakenly labeled phishing emails as “Important,”lending them false credibility.

These security gaps and ethical missteps lend weight to a alarming forecast from Gartner, which predicts that “by 2028, 25% of enterprise breaches will be traced back to AI agent abuse,” da sia gli attori interni esterni che malvagi . Il rischio è aggravato da turbolenze interne nei principali laboratori del settore.

Il dibattito è stato amplificato dalle dimissioni di alto profilo dello scorso anno di Jan Leike, ex co-lead del team di sicurezza di Openi. Ha dichiarato pubblicamente che in azienda,”la cultura e i processi di sicurezza hanno preso un sedile posteriore per i prodotti brillanti”, un sentimento che risuonava con molti critici che ritengono che la gara per la capacità sta superando la disciplina per la sicurezza.

Il quadro proposto di antropici è un chiaro tentativo di affrontare questa crisi di fiducia. Spingendo per la responsabilità pubblica e standardizzando le informazioni sulla sicurezza, la società sta cercando di stabilire una nuova base per lo sviluppo responsabile. La proposta funge sia da strumento pratico che da mossa strategica per modellare il futuro della regolamentazione dell’IA.

Categories: IT Info