Ang
OpenAi ngayon ay naglunsad ng ahente ng CHATGPT, ang pinakamalakas na katulong sa AI hanggang sa kasalukuyan, na naglalayong lumikha ng isang tool na aktibong nakumpleto ang trabaho para sa mga gumagamit kaysa sa pagsagot lamang ng mga katanungan. Ang bagong ahente ay nagpapatakbo ng isang”virtual computer”upang maisagawa ang kumplikado, multi-step na gawain. Ang paglulunsad na ito ay tumataas sa lahi para sa kataas-taasang kapangyarihan sa ahente ng AI, na nag-iingat ng openai laban sa mga inisyatibo mula sa Google, Anthropic, at Microsoft. Sinusuportahan nito ang tool ng operator ng kumpanya, na unang ipinakilala noong Enero 2025 bilang isang mas limitado, ahente na batay sa browser. Ang pag-bid Ito ay pinalakas ng isang bago, hindi pinangalanan na modelo mula sa pamilyang Openai o3 . Ang system ay idinisenyo upang mai-offload ang mga kumplikadong gawain mula sa mga gumagamit, tulad ng pagpaplano ng mga kaganapan sa pamamagitan ng pagsuri sa isang kalendaryo o pagbuo ng isang slide deck. Ang panloob na muling pagsasaayos ay binibigyang diin ang madiskarteng kahalagahan ng paglipat ng lampas sa mga simpleng chatbots. Pinagsasama nito ang isang malayong visual na browser na may isang terminal para sa pagpapatupad ng code, pagsasagawa ng pagsusuri ng data, at kahit na paglikha ng mga spreadsheet. I-access ang mga panlabas na mapagkukunan ng data at mga aplikasyon tulad ng Google Drive, isang makabuluhang hakbang mula sa mga nakaraang handog. Sa Frontiermath, isang mapaghamong pagsubok sa matematika, ang ahente ay umiskor ng 27.4% kapag gumagamit ng mga tool nito, isang napakalaking paglukso mula sa 6.3% na nakamit ng nakaraang nangungunang modelo, ang O4-Mini. Nabanggit ng lead lead na si Isa Fulford na ang mga gumagamit ay hindi nangangahulugang panoorin ito sa trabaho, pag-frame ito bilang isang katulong sa background.”Kahit na tumatagal ng 15 minuto, kalahating oras, napakalaking bilis kung ihahambing sa kung gaano katagal ang gagawin mo,”aniya, na binibigyang diin ang papel nito sa paghawak ng mga proseso ng pag-iingat. href=”https://cdn.openai.com/pdf/18a02b5d-6b67-4cec-ab64-68cdfbddebcd/preparedness-framework-v2.pdf”target=”_ blangko”> mga safeguards mula sa kahandaang balangkas nito . Ito ay isang pag-iingat na panukala laban sa potensyal na maling paggamit, lalo na sa mga biological at kemikal na mga domain, kahit na walang direktang katibayan ng peligro.
Ang kontrol ng gumagamit ay isang pangunahing tema. Kinumpirma ni Fulford na”bago ang ahente ng ChatGPT ay gumagawa ng anumang’hindi maibabalik,’tulad ng pagpapadala ng isang email o paggawa ng isang booking, humihingi muna ito ng pahintulot.”Ang hakbang na kumpirmasyon ng gumagamit na ito ay kritikal para sa mga aksyon na may mga kahihinatnan sa mundo, ang pagbuo sa kaligtasan-unang disenyo ng naunang ahente ng operator.
Ang mga karagdagang layer ng kaligtasan ay may kasamang”mode ng relo.”Ang tampok na ito ay awtomatikong huminto sa pagpapatupad ng ahente sa mga sensitibong website, tulad ng mga portal sa pananalapi, kung ang gumagamit ay nag-navigate palayo sa tab. Bilang karagdagan, ang OpenAI ay hindi pinagana ang tampok na memorya ng ChATGPT sa paglulunsad upang mabawasan ang mga panganib ng exfiltration ng data mula sa mga pag-atake ng iniksyon na iniksyon. Ito ay isang direktang tugon sa mga katulad na tool mula sa mga karibal. Maaga ang Anthropic kasama ang tampok na”paggamit ng computer”para sa mga modelo ng Claude, na inilabas noong Oktubre 2024. Ang Microsoft din, ay nag-embed ng mga tampok na tulad ng ahente sa copilot studio nito. Si Charles Lamanna, isang Microsoft VP, ay matagumpay na nakuha ang layunin:”Kung ang isang tao ay maaaring gumamit ng app, maaari rin ang ahente.”Ang kasaysayan na ito ay nagtatakda ng isang mataas na bar para sa bago, mas may kakayahang ahente. Ang isang kamakailang pag-aaral ng Carnegie Mellon ay natagpuan na kahit na ang mga nangungunang mga modelo ng AI ay nakikipaglaban sa mga gawain sa automation ng negosyo, na nagtatampok ng mga isyu na may pangkaraniwang kahulugan at pag-browse sa web. Ang bagong ahente ng Openai ay susukat laban sa mga benchmark na pagganap ng real-world na ito.