OpenAI heeft vandaag de lancering van Chatgpt Agent, de krachtigste AI-assistent tot nu toe, met als doel een tool te maken die actief werk voor gebruikers voltooit in plaats van alleen het beantwoorden van vragen. De nieuwe agent heeft een”virtuele computer”om complexe, multi-step-taken uit te voeren.

Beschikbaar voor betaalde abonnees vanaf 17 juli, de agent integreert de mogelijkheden van de vorige operator van Openai en diepe onderzoekstools. Deze lancering escaleert de race voor suprematie in Agentic AI, waarbij OpenAI wordt gepakt tegen initiatieven van Google, Anthropic en Microsoft.

De verhuizing signaleert een strategische verschuiving van conversatie-AI naar systemen die digitale workflows autonoom kunnen beheren. Het vervangt de operatortool van het bedrijf, die voor het eerst in januari 2025 werd geïntroduceerd als een meer beperkte, browser-gebaseerde agent.

chatgpt-agent vertegenwoordigt de moedigste poging van Openai nog om een echt agentisch product te creëren. Het is aangedreven door een nieuw, niet genaamd model van de Openai O3-familie . Het systeem is ontworpen om complexe taken van gebruikers te ontladen, zoals het plannen van evenementen door een agenda te controleren of een schuifdek te genereren.

Om de nieuwe tool te bouwen, combineerde OpenAI de teams achter zowel operator als diep onderzoek, waardoor een uniforme groep was gericht op deze nieuwe agentische richting. Deze interne herstructurering onderstreept het strategische belang van verder gaan dan eenvoudige chatbots.

In tegenstelling tot zijn voorgangers is Chatgpt Agent uitgerust met een meer uitgebreide set tools. Het combineert een externe visuele browser met een terminal voor het uitvoeren van code, het uitvoeren van data-analyse en het maken van spreadsheets.

[ingesloten inhoud]

Yash Kumar, Openai’s productleider voor de agent voor de agent, heeft ook een bit uitgelegd dat de AGENTROESSSET ATTOOPLAGE heeft.”Externe gegevensbronnen en applicaties zoals Google Drive, een belangrijke stap verder van eerdere aanbiedingen.

Het onderliggende model beschikt over state-of-the-art prestaties op moeilijke benchmarks. Op Frontiermath, een uitdagende wiskundetest, scoorde de agent 27,4% bij het gebruik van zijn tools, een enorme sprong van de 6,3% bereikt door het vorige topmodel, O4-Mini.

Openai erkent dat de tool niet is gebouwd voor snelheid. Onderzoeksleider Isa Fulford merkte op dat gebruikers niet bedoeld zijn om het te zien werken, waardoor het als achtergrondassistent omlijst.”Zelfs als het 15 minuten duurt, een half uur, is het een vrij grote versnelling in vergelijking met hoe lang het zou duren om het te doen,”zei ze, de nadruk op zijn rol bij het omgaan met tijdrovende processen.

een ‘voorzorgsmaatregel’ een ‘voorzorgsmaatregel’ voor de veiligheid en controle

Gegeven de ene ene van de agent te activeren. href=”https://cdn.openai.com/pdf/18a02b5d-6b67-4cec-ab64-68cdfbddebcd/preparedness-framework-v2.pdf”doelwit=”_ blank”> beveiligingsframework . Dit is een voorzorgsmaatregel tegen potentieel misbruik, vooral in biologische en chemische domeinen, zelfs zonder direct bewijs van risico.

Gebruikerscontrole is een centraal thema. Fulford bevestigde dat”voordat Chatgpt-agent iets”onomkeerbaars”doet, zoals het verzenden van een e-mail of het maken van een boeking, het vraagt eerst om toestemming.”Deze gebruikersbevestigingsstap is van cruciaal belang voor acties met reële gevolgen, voortbouwend op het veiligheidsgerichte ontwerp van de eerdere operatoragent.

Verdere veiligheidslagen omvatten een”horlogemodus”. Deze functie pauzeert automatisch de uitvoering van de agent op gevoelige websites, zoals financiële portals, als de gebruiker weg van het tabblad navigeert. Bovendien heeft OpenAI de geheugenfunctie van Chatgpt bij de lancering uitgeschakeld om gegevensuitreikingsrisico’s te verminderen door snelle injectieaanvallen.

De race voor agentische AI warmt

De lancering van chatgpt-agent verbaast de concurrentie tussen grote technische spelers. Het is een directe reactie op vergelijkbare tools van rivalen. Anthropic was vroeg met zijn”computergebruik”-functie voor Claude-modellen, uitgebracht in oktober 2024.

Google wordt ook zwaar geïnvesteerd, met zijn projectmariner en tests van een”computergebruik”-functie in zijn AI Studio. Ook Microsoft is insluitend agent-achtige functies in de Copilot Studio. Charles Lamanna, een Microsoft VP, heeft het doel bondig vastgelegd:”Als een persoon de app kan gebruiken, kan de agent dat ook.”

Al vóór deze lancering toonde de operator van OpenAI een concurrentievoordeel, beter presterende rivalen op benchmarks zoals WebVoyager en Osworld, die de taken van het systeem en de systeemniveaus test. Deze geschiedenis legt een hoge lat voor de nieuwe, meer capabele agent.

Deze competitieve push komt ondanks vragen over de effectiviteit van agent. Uit een recente studie van Carnegie Mellon bleek dat zelfs top-AI-modellen worstelen met zakelijke automatiseringstaken, waarbij problemen met gezond verstand en webbrowsen worden benadrukt. De nieuwe agent van Openai zal worden gemeten aan de hand van deze real-world prestatiebenchmarks.

Categories: IT Info