OpenAI a introdus Operator, un instrument AI bazat pe browser, capabil să realizeze o varietate de sarcini online, cum ar fi rezervarea rezervărilor, completarea formularelor și gestionarea comenzilor de produse alimentare.

Disponibil exclusiv pentru abonații ChatGPT Pro cu planul lunar de 200 USD, instrumentul reprezintă cel mai recent pas al OpenAI către AI care interacționează activ cu mediile digitale.

Prin valorificarea unui model nou dezvoltat de agent de utilizare a computerului (CUA), Operator se stabilește în afară de asistenții AI tradiționali care se bazează pe text sau API-uri predefinite.

„Operatorul este unul dintre primii noștri agenți, care sunt AI capabili să lucreze pentru tu în mod independent — îi dai o sarcină și o va executa”, a explicat OpenAI în anunțul său oficial.

Conceput pentru a imita interacțiunile umane cu interfețele grafice cu utilizatorul (GUI), Operator interpretează și manipulează elementele de pe ecran, cum ar fi butoanele, meniurile drop-down și câmpurile de text, permițându-i să funcționeze eficient pe o gamă largă de site-uri web.

Cum funcționează operatorul

strong>

În esență, Operator folosește CUA, un model care combină modelul OpenAI GPT-4o cu capacități avansate de raționament și viziune

Spre deosebire de tradițional sisteme care se bazează pe API-uri, CUA permite Operatorului să „vadă” și să interacționeze cu paginile web prin capturi de ecran. Acest lucru îi permite agentului să opereze pe platforme fără a necesita integrări specifice.

Utilizatorii oferă instrucțiuni de activitate printr-o interfață text, iar Operatorul le procesează într-un browser la distanță găzduit pe serverele OpenAI.

Instrumentul execută acțiuni pas cu pas, întrerupând introducerea utilizatorului dacă întâmpină sarcini care necesită informații sensibile, cum ar fi acreditările de conectare sau verificările CAPTCHA.

OpenAI a încorporat, de asemenea, un „mod preluare”, permițând utilizatorilor să-și asume controlul asupra sesiunii în orice moment.

În plus, Operator acceptă multitasking. Utilizatorii îi pot instrui să efectueze mai multe acțiuni simultan, cum ar fi rezervarea unei mese pe OpenTable în timp ce comandați bilete la concert prin StubHub, OpenAI observă că aceste capabilități simplifică fluxurile de lucru repetitive, economisind timp utilizatorilor.

[conținut încorporat]

Măsuri de confidențialitate și siguranță

Pentru a răspunde preocupărilor legate de confidențialitate și siguranță, OpenAI a încorporat mai multe măsuri de protecție în cadrul Operatorului înainte de a executa orice acțiune cu consecințe externe, cum ar fi pe măsură ce finalizează o achiziție, agentul întrerupe și solicită confirmarea utilizatorului. Sarcinile sensibile, inclusiv tranzacțiile financiare sau deciziile de solicitare a unui loc de muncă, sunt restricționate în mod deliberat.

„Operatorul este. instruit pentru a se asigura că utilizatorul rămâne în control în orice moment”, a explicat cercetătorul OpenAI Casey Chu.

Navigarea prudentă a sistemului previne acțiunile neintenționate, în timp ce setările sale de confidențialitate permit utilizatorilor să ștergă datele de navigare și să renunțe la contribuția cu datele lor la formarea modelului. OpenAI a construit, de asemenea, apărări împotriva site-urilor web adverse, cum ar fi solicitările ascunse sau codul rău intenționat conceput pentru a induce în eroare agentul.

Evaluări de performanță și avantaj competitiv

Operatorul intră un domeniu în creștere de instrumente de automatizare AI, inclusiv Anthropic’s Computer Use și Google DeepMind’s Mariner. Aceste modele concurente urmăresc să execute sarcini bazate pe browser, dar OpenAI afirmă că designul CUA al operatorului oferă performanțe superioare.

Pe WebVoyager, un etalon care evaluează execuția sarcinilor din browser, Operator a obținut un scor de 87%, depășind Mariner (83,5). %) și funcția Anthropic de utilizare a computerului (56%). În evaluări mai largi la nivel de sistem, cum ar fi OSWorld, care testează sarcini precum îmbinarea PDF-urilor și editarea imaginilor, Operator a obținut 38,1% comparativ cu utilizarea computerului. 22%.

În timp ce testerii umani depășesc încă AI la aceste valori de referință – obținând un scor de 72,4% la OSWorld – rezultatele operatorului demonstrează progrese măsurabile în capacitățile practice de AI.

Anthropic a descris modelul său de utilizare a computerului ca fiind capabil de executarea sarcinilor care implică „zeci sau chiar sute de pași”, potrivit directorului științific Jared Kaplan. Cu toate acestea, dependența operatorului de vizual interpretarea, mai degrabă decât API-urile, îi permite să interacționeze cu o gamă mai largă de platforme, extinzându-și versatilitatea.

Aplicații și cazuri de utilizare

În demonstrații live, Operator a prezentat capacitatea sa de a automatiza diverse sarcini, cercetătorul OpenAI, Yash Kumar, a demonstrat instrumentul care rezervă o rezervare la restaurant pe OpenTable, cumpărând bilete la concert de pe StubHub și adăugând articole la un program. Coșul de cumpărături Instacart — toate în același timp

Kumar a subliniat economiile de timp oferite de Operator, declarând: „Am o întâlnire în fiecare joi”, spune Kumar. „Așa că, în fiecare joi dimineață, îi spun Operatorului să-mi trimită o listă cu cinci restaurante care au o masă pentru doi în acea seară. Desigur, aș putea face asta, dar îmi ia 10 minute. Și adesea uit să o fac. Cu Operator, pot rula sarcina cu un singur clic. Nu există nicio sarcină de rezervare.”

OpenAI colaborează, de asemenea, cu platforme precum DoorDash, Uber și Priceline pentru a perfecționa funcționalitatea instrumentului. De exemplu, Operatorul poate recomanda servicii prestabilite pentru anumite sarcini, cum ar fi alegerea companiilor aeriene preferate. pe Booking.com sau rezervând curse prin Uber.

O viziune mai largă pentru general artificial Inteligenta

Lansarea Operator se aliniază cu ambițiile mai largi ale OpenAI de a realiza inteligența generală artificială (AGI) se referă la sisteme AI capabile de raționament și rezolvare de probleme la nivel uman în diverse sarcini/p>

Conform lui Alexandr Wang, CEO al Scale AI, instrumente precum Operator reprezintă un pas esențial către acest obiectiv „AGI va fi definit de sisteme care pot folosi computere la fel oameni”, a explicat Wang, prezicând că astfel de progrese ar putea apărea în următorii doi până la patru ani.

În timp ce Operator rămâne în faza de cercetare, OpenAI intenționează să-și extindă disponibilitatea pentru utilizatorii ChatGPT Plus, Team și Enterprise.. În plus, compania își propune să lanseze modelul CUA ca API, permițând dezvoltatorilor să construiască agenți personalizați adaptați unor industrii specifice.

Dezvoltare și limitări viitoare

În ciuda caracteristicilor sale promițătoare, Operator se luptă în prezent cu fluxuri de lucru complexe, cum ar fi gestionarea calendarelor sau crearea de prezentări de diapozitive. OpenAI recunoaște aceste limitări, subliniind că feedbackul utilizatorilor va fi esențial pentru perfecționarea instrumentului. De asemenea, compania intenționează să integreze capabilitățile Operator direct în ChatGPT pentru o execuție fără probleme a sarcinilor.

Viziunea pe termen lung a OpenAI implică poziționarea Operator ca mai mult decât un simplu instrument de productivitate. Prin automatizarea fluxurilor de lucru complexe, compania speră să redefinească modul în care utilizatorii interacționează cu sistemele digitale, deschizând calea pentru aplicații mai largi în afaceri, educație și servicii publice.

Categories: IT Info