Leader de la sécurité AI Anthropic est la propose un nouveau cadre politique visant à augmenter la transparence dans le développement de modèles puissants”AI frontière”. La proposition prévoit que les grandes entreprises d’IA divulguent publiquement leurs protocoles de sécurité via un «cadre de développement sécurisé» et des «cartes système» détaillées.
Cette décision intervient alors que l’industrie de l’IA est confrontée à un examen approfondi d’une série de défaillances de sécurité, de défauts de sécurité et de préoccupations éthiques. L’approche «légère» d’Anthropic vise à établir la confiance du public et la responsabilité en normalisant les rapports de sécurité. Il offre une alternative flexible à la réglementation du gouvernement rigide tout en répondant au besoin urgent de surveillance.
Le cadre de développement sécurisé expliqué
À la base, la proposition nécessite que les développeurs des modèles les plus capables pour créer et publier un Secure Development Framework (SDF) . Ce document décrira comment une entreprise évalue et atténue des risques catastrophiques déraisonnables avant de déployer un nouveau modèle.
Les fraforks définissent ces catastrophics. Il cible les menaces du développement d’armes chimiques, biologiques, radiologiques et nucléaires (CBRN). Il traite également des dommages potentiels des modèles qui agissent de manière autonome de manière contraire à l’intention de leurs développeurs.
aux côtés du SDF, les entreprises publieraient des «cartes système» ou des documents similaires. Ceux-ci résumeraient les procédures de test de modèle, les résultats de l’évaluation et toutes les atténuations requises. Cela crée un enregistrement public des capacités et des limites d’un modèle au moment de sa version.
Standardizant un pacte volontaire au milieu des débats réglementaires
La proposition d’Anthropic évite délibérément d’être excessivement normatives. La société fait valoir que «les normes rigides imposées par le gouvernement seraient particulièrement contre-productives étant donné que les méthodes d’évaluation deviennent obsolètes en des mois en raison du rythme des changements technologiques», un clin d’œil au rythme rapide de l’innovation qui peut rendre les règles techniques spécifiques obsolètes presque immédiatement.
La politique est étroitement portée pour s’appliquer uniquement aux développeurs les plus importants. Anthropic suggère des seuils comme 100 millions de dollars de revenus annuels ou 1 milliard de dollars de dépenses de R&D pour éviter les startups de chargement. Il comprend également des dispositions pour les protections des dénonciateurs, ce qui rend illégal pour un laboratoire de mentir sur sa conformité.
Cette approche cherche efficacement à codifier et à normaliser ce qui est actuellement des engagements de sécurité volontaire des grands laboratoires. Des sociétés comme Google Deepmind, openai , et Micosoft a déjà publié un fraterwor-cible=”_ Blank”> Micosoft a déjà publié un fraterwor-cible=”_ Blank”> Microsoft a déjà publié un fraterre de la similitude. La décision d’Anthropic vise à faire de ces divulgations une pratique obligatoire et de base.
Le moment de cette proposition est également politiquement astucieux. Avec une administration de Trump potentielle se serait plus concentrée sur la concurrence sur l’IA que les règles strictes, ce cadre”Light-touch”dirigé par l’industrie pourrait être considéré comme un chemin plus agréable pour les décideurs.
Une réponse nécessaire à une cascade de crises de sécurité d’IA
La poussée pour la transparence ne se produit pas dans un vacuum. Il s’agit d’une réponse directe à une année en proie à des échecs de grande envergure de l’IA qui ont érodé la confiance du public. L’industrie a été aux prises avec le comportement émergent et souvent imprévisible de ses systèmes les plus avancés.
Les recherches récentes ont révélé des tendances alarmantes. Un ancien chercheur d’OpenAI, Steven Adler, a publié une étude affirmant que «les systèmes d’IA modernes ont des valeurs différentes de ce que vous vous attendez à ce qu’ils soient», après que ses tests ont montré que GPT-4O a priorisé l’auto-préservation de la sécurité des utilisateurs. Cela a suivi les propres recherches d’Openai identifiant une «personnalité mal alignée» contrôlable à l’intérieur de ses modèles.
Anthropic lui-même a été confronté à la recherche sur la recherche montrant que son Claude AI pourrait développer une capacité de «dénonciation», tentant de signaler les utilisateurs pour des actes immoraux perçus. Ces incidents mettent en évidence un écart croissant entre la fonction prévue et le comportement réel.
Au-delà du comportement imprévisible, les défauts de sécurité critiques ont exposé des vulnérabilités architecturales profondes. La faille”Echoleak”dans Microsoft 365 Copilot était un exploit en clic zéro qui a permis aux attaquants de tromper l’IA dans les données de l’entreprise qui fuient via un seul e-mail.
est également confronté à un calcul sur les tours éthiques dans les produits déployés. L’application de messagerie d’Apple a été critiquée pour une fonction de tri de l’IA qui a qualifié de par erreur les e-mails de phishing comme «importants», leur prêtant une fausse crédibilité.
Ces lacunes de sécurité et les faux pas éthiques prêtent le poids à une prévision alarmante de Gartner, qui prédit que «d’ici 2028, 25% des effets d’entreprise seront retrouvés à l’absence d’agent Ai», « à la fois des acteurs interaux externes et malveillants . Le risque est aggravé par des troubles internes dans les principaux laboratoires de l’industrie.
Le débat a été amplifié par la démission très médiatisée de l’année dernière de Jan Leike, ancienne co-chef de l’équipe de sécurité d’Openai. Il a déclaré publiquement que dans l’entreprise, «la culture de la sécurité et les processus ont repris les produits brillants», un sentiment qui a résonné avec de nombreux critiques qui estiment que la course aux capacités dépasse la discipline de la sécurité.
Le cadre proposé par anthropic est une tentative claire de s’adresser à cette crise de confiance. En faisant pression pour la responsabilité publique et en normalisant les divulgations de sécurité, la société essaie d’établir une nouvelle référence pour le développement responsable. La proposition sert à la fois d’outil pratique et d’un mouvement stratégique pour façonner l’avenir de la réglementation de l’IA.