Microsoft onthulde dinsdag Project IRE, een nieuwe AI-agent die autonoom reverse-engineers en classificeert kwaadaardige software. De verhuizing escaleert de AI Cybersecurity Arms Race en positioneert Microsoft’s malware-jager tegen de”Big Sleep”Agent van Google, die zich richt op het vinden van softwarefouten.
Ontwikkeld door Microsoft’s onderzoeks-en beveiligingsteams, Project IRE wil het complexe werk van malware-analyse automatiseren. Dit stelt beveiligingsteams in staat om hun verdediging tegen geavanceerde, door AI aangedreven aanvallen te schalen en maakt menselijke experts vrij om zich te concentreren op de meest kritische bedreigingen.
De aankondiging onderstreept een strategische divergentie in hoe technische reuzen AI voor verdediging bewapenen. Terwijl Google jaagt op kwetsbaarheden in code, richt Microsoft zich nu op de kwaadaardige binaries zelf.
samenwerking tussen Microsoft Research, Microsoft Defender Research, en Microsoft Discovery & Quantum , Combinatie met operationele beveiliging met operationele beveiliging met operationele beveiliging met operationele beveiliging met operationele beveiliging met operationeel Expertise.
De agent werkt met behulp van geavanceerde taalmodellen, beschikbaar via Azure AI Foundry, om een reeks gespecialiseerde tools te sturen. De architectuur stelt het in staat om op meerdere niveaus te redeneren, van binaire analyse op laag niveau tot interpretatie op hoog niveau van codegedrag, waarbij het onderscheid maakt van tools die eenvoudig overeenkomen met patronen.
Het analyseproces begint met een triage, waar geautomatiseerde tools het bestandstype en structuur identificeren. Van daaruit reconstrueert het systeem de besturingsgrafiek van de software met behulp van open-source frameworks zoals ghidra en angr . Dit creëert een logische kaart van het uitvoeringspad van het programma, waarbij de ruggengraat van het geheugenmodel van de AI wordt gevormd.
Door middel van iteratieve functieanalyse roept de AI gespecialiseerde tools aan om belangrijke functies te identificeren en samen te vatten. Elk resultaat voedt zich in een”bewijsketen”, een gedetailleerd, auditeerbaar pad dat laat zien hoe het systeem zijn conclusie heeft bereikt. Dit logboek is cruciaal voor Human Review and System Refinement . Controleert zijn claims tegen een kennisbasis van expertverklaringen van Microsoft’s eigen malware-ingenieurs. In één geval was het het eerste systeem bij Microsoft-mens of machine-om een dreigingsrapport sterk genoeg te laten auteur om een automatisch blok op zichzelf te activeren.
In vroege tests op openbare Windows-stuurprogramma’s was het systeem zeer nauwkeurig, waarbij 98% precisie en onjuist flagging veilige bestanden in slechts 2% van de gevallen waren. Dit lage fout-positieve tarief suggereert een duidelijk potentieel voor de implementatie in beveiligingsactiviteiten.
Bij testen tegen bijna 4.000″hard-target”-bestanden die andere geautomatiseerde systemen hadden versterkt, bereikte het 89% precisie en 26% terugroepen, met een valse positieve tarief van 4%. Hoewel terugroepactie gematigd was, benadrukt de nauwkeurigheid ervan op deze moeilijke gevallen het potentieel om de menselijke analyse te vergroten.
de AI-wapenwedloop in cybersecurity
Project IRE’s debuut komt te midden van een bredere, intensiveringswedstrijd in AI-Driven. De focus op malware-classificatie contrasteert scherp met het project Big Sleep van Google, dat onlangs de aandacht heeft gekregen voor het autonoom ontdekken van 20 nieuwe kwetsbaarheden in veel gebruikte open-source software zoals FFMPEG en Imagemagick.
Google’s agent, een product van de DeepMind-en Elite Project Zero-teams, heeft een snelle en deliabate evolutie getoond. Het project bewees voor het eerst zijn potentieel eind 2024 door een bug te ontdekken in de SQLite Database Engine. De inzet werd aanzienlijk grootgebracht in juli 2025, toen Google onthulde dat Big Sleep een proactief een dreigende dreiging, CVE-2025-6965, proactief had geneutraliseerd in een directe race tegen aanvallers.
In tegenstelling tot traditionele methoden zoals Fuzzing, gebruikt Big Sleep LMMS LLMS voor diepe wortel-cause-analyse, simulatie van een menselijke onderzoeker. Google’s vice-president van engineering, Royal Hansen, vierde de bevindingen als”een nieuwe grens in geautomatiseerde kwetsbaarheidsontdekking.”
Deze trend is niet beperkt tot slechts twee spelers. Er is een groeiend ecosysteem van AI-beveiligingshulpmiddelen van startups en gevestigde bedrijven in opkomst. Andere technische reuzen bouwen complementaire systemen. Meta heeft bijvoorbeeld onlangs AutoPatchBench aangekondigd om te evalueren hoe goed AI automatisch bugs kan repareren, naast LamaFirewall, een tool die is ontworpen om te voorkomen dat AI-modellen in de eerste plaats onzekere code genereren. Ondertussen halen tools zoals Runsybil en Xbow ook de krantenkoppen, met Xbow onlangs topping een hackerone leaderboard . Dezelfde AI-modellen die voor verdediging worden gebruikt, kunnen ook onzekere coderingspraktijken bestendigen. Recent academisch onderzoek heeft aangetoond dat veel LLMS, getraind op openbare code van GitHub, hebben geleerd oude bugs te repliceren, een fenomeen dat het probleem met de”vergiftigde LLM”noemde. Dit creëert een vicieuze cirkel waarbij de tools die bedoeld zijn om de toekomst op te bouwen, de fouten uit het verleden erven.
Het dubbele gebruik van AI dwingt een snelle evolutie in defensieve strategieën, naarmate AI-aangedreven aanvallen verfijnder worden. Zoals Sheetal Mehta van NTT-gegevens opgemerkt in een gerelateerde context,”gefragmenteerde beveiligingshulpmiddelen kunnen de geautomatiseerde aanvallen van vandaag niet bijhouden.”Dit weerspiegelt een groeiende consensus over de noodzaak om AI te benutten voor defensie, terwijl het potentieel voor misbruik wordt beperken.
Zoals Brad Smith van Microsoft eerder zei:”Ons doel moet zijn om AI te houden als een defensieve tool sneller dan het als een aanvallend wapen.”De ontwikkeling van gespecialiseerde agenten zoals IRE en Big Sleep vertegenwoordigt een kritisch front in die strijd.
Balancing automatisering met menselijke expertise
Terwijl automatisering belooft beveiligingsteams te helpen overweldigen, creëert het ook nieuwe uitdagingen. Een belangrijke zorg in de industrie is”AI Slop”, een term voor de vloed van lage kwaliteit of irrelevante bugrapporten gegenereerd door geautomatiseerde tools.
Dit kan de vrijwilligersbeheerders van open-sourceprojecten vermijden. Zoals Vlad Ionescu, mede-oprichter van AI Security Startup Runsybil, vertelde TechCrunch:”Dat is het probleem dat mensen tegenkomen, is we veel dingen die eruit zien als goud, maar het is eigenlijk gewoon onzin.”
om dit tegen te gaan, zowel Microsoft als Google benadrukt dat menselijke expertise indispsable blijft. Een woordvoerder van Google, Kimberly Samra, bevestigde dat”om van hoge kwaliteit en bruikbare rapporten te zorgen, we een menselijke expert in de lus hebben voordat we rapporteren, maar elke kwetsbaarheid werd gevonden en gereproduceerd door de AI-agent zonder menselijke interventie.”Mike Walker, een onderzoeksmanager bij Microsoft, legde uit dat vroege ervaringen met Project Ire aantoonden:”[Wat we uit die gevallen hebben geleerd, is] dat we de complementaire sterke punten van zowel mensen als AI kunnen benutten voor bescherming.”Het gedetailleerde bewijspas van het systeem is specifiek ontworpen om deze samenwerking tussen mens en machine te vergemakkelijken.
Microsoft is van plan het prototype in zijn beveiligingsproducten te integreren als”binaire analysator.”De uiteindelijke visie van het bedrijf is om nieuwe malware rechtstreeks in het geheugen te detecteren, waardoor de autonome mogelijkheden zijn om miljarden apparaten effectiever te beschermen.