Trenden med AI-agenter som beveger seg utover chat til aktivt å gjøre ting på en datamaskin, tar et skritt fremover. Microsoft begynte denne uken å forhåndsvise en”datamaskinbruk”-funksjon innen Copilot Studio-low-kode-plattformen, designet for å la bedrifter bygge AI-assistenter som kan navigere og betjene både nettsteder og tradisjonelle stasjonære applikasjoner. Disse agentene fungerer ved å simulere menneskelige handlinger-klikke på knapper, skrive inn i felt, velge menyer-på grunn av å automatisere oppgaver selv på systemer som mangler moderne programmeringsgrensesnitt for direkte integrasjon. I motsetning til den mer begrensede ‘handlinger’-funksjonen i forbrukerversjonen av Copilot, er denne Copilot Studio-kapasiteten rettet mot bredere bedriftsautomatiseringsscenarier.
Navigering av det konkurrerende landskapet
Microsoft er ikke det første til å gi AI-agenter kontroll over datamaskinens grensesnitt. Antropic laget bølger i oktober 2024 ved å introdusere en funksjon med nøyaktig samme navn,”Datamaskinbruk”, for sin Claude 3.5 Sonnet-modell, slik at den kan administrere stasjonære oppgaver.
Openai fulgte med den operatøragenten i januar, selv om den opererer med mer direkte brukeroversig, og krever godkjenning før den utførte tasker. Google er også kjent for å utvikle lignende evner under Name Project Mariner. Microsofts oppføring, som ligger i Copilot Studio-verktøyet (som integreres med Power Platform), er målrettet mot både Web (Supporting Edge, Chrome og Firefox-nettlesere i henhold til den offisielle bloggen) og stasjonære miljøer, og potensielt tilbyr bredere automatiseringsomfang enn operatør, som kjører direkte på Microsofts skyinfrastruktur.
Microsoft posisjonerer denne muligheten som en fremgang over tradisjonell robotprosessautomatisering når du kan bølge når du bruker AI-en som er en avansering med manus. I følge Microsoft,”Det justeres i sanntid ved å bruke innebygde resonnement for å fikse problemer på egen hånd, så arbeidet fortsetter uten avbrudd.”Å bygge disse automatiseringene innebærer å beskrive ønsket oppgave på naturlig språk, og utviklere får sanntids video-tilbakemelding som viser agentens planlagte trinn for enklere foredling. Denne nye funksjonen er en del av et bredere push av Microsoft til Agentic A. Selskapet detaljerte nylig andre spesialiserte agenter for Microsoft 365 (‘forsker’ og ‘analytiker’) og cybersecurity, og avduket sin Magma AI Multimodal Foundation-modell i februar 2025, designet for komplekse interaksjonsoppgaver som involverer syn og handling. Datamaskinbruksfunksjonen drar nytte av denne bakgrunnen, teoretisk slik at den kan forstå og samhandle med Guis mer intelligent. Microsoft forsikrer Enterprise-kunder om at prosessen kjører innenfor det Azure Cloud-miljøet, data brukes ikke for å trene kjernen AI, og administratorer har tilsyn. Den offisielle bloggen bemerker at”produsenter kan se en historie med datamaskinbruksaktivitet etter ønske, inkludert fangede skjermbilder og resonnementstrinn.”Ikke desto mindre, å gi AI nøklene til å betjene programvaregrensesnitt, bringer iboende sikkerhetshensyn i fokus. Sikkerhetsforskere har tidligere vist potensielle risikoer, og viser hvor like AI-agentverktøy kan teoretisk settes ut til å bli utnyttet for ondsinnede formål som sofistikerte phishing-angrep hvis de ikke er nøye sikret. Å slå riktig balanse mellom funksjonalitet og sikkerhet vil være nøkkelen. Funksjonen”Datamaskinbruk”er for øyeblikket tilgjengelig som en forhåndsvisning av tidlig tilgang. Interesserte trenger et forhåndsvisningsmiljø som ligger i USA for å søke via Microsofts påmeldingsskjema . Microsoft indikerer at mer informasjon vil komme på sin Build Developer Conference i mai 2025 . strategi, sikkerhet og tilgjengelighet