google ka në dispozicion për zhvilluesit përmes Google AI Studio . Teknologjia lejon AI të shohë se çfarë është në ekran dhe pastaj të klikojë, të shkruajë dhe të lundrojë në faqet e internetit për të automatizuar punët komplekse dixhitale.
Masa shënon një hap të rëndësishëm përtej chatbots të thjeshtë. Ai synon të krijojë asistentë që mund të përfundojnë në mënyrë aktive punën në emër të një përdoruesi, duke përshkallëzuar garën për të ndërtuar agjentë me të vërtetë autonome të AI.
Si mëson Gemini të klikojë, shkruajë dhe lëviz
Në thelbin e tij, modeli i përdorimit të kompjuterit Gemini 2.5 funksionon në atë që dokumentacioni i Google e përshkruan si një derisa detyra e përdoruesit të jetë e plotë. Aftësitë e tij përfshijnë lundrimin në URL specifike, duke përdorur shiritin e kërkimit, lëvizjen, duke lëvizur kursorin për të zbuluar menutë, dhe madje edhe duke kryer operacione tërheqëse dhe rënë Nxehet një fushë tashmë konkurruese, duke përshkallëzuar garën midis gjigandëve të teknologjisë për të zhvilluar”AI AGJENTIK”të aftë”. Antropik ishte një lëvizës i hershëm, duke prezantuar një veçori”Përdorimi i kompjuterit”për modelin e tij Sonnet Claude 3.5 përsëri në Tetor 2024. Pas prezantimit të agjentit fillestar të tij”Operator”në Janar 2025, kompania nisi agjentin shumë më të fuqishëm ChatGPT në korrik 2025. Për dallim nga modeli i vetëm i shfletuesit të Google, Agjenti ChatGPT operon një”kompjuter virtual”, duke i dhënë asaj qasje në një terminal për ekzekutimin e kodit, së bashku me shfletuesin e tij. Ndërsa një Microsoft VP, Charles Lamanna, kapi në mënyrë të përmbledhur qëllimin përfundimtar të industrisë,”Nëse një person mund të përdorë aplikacionin, edhe agjenti mund.”Versionet e kësaj teknologjie tashmë po fuqizojnë mjetet e brendshme si prototipi i hulumtimit Projekti Mariner dhe veçoritë agjentike brenda modalitetit AI në kërkim, duke demonstruar një rrugë të qartë nga eksperimenti tek produkti i përballuar me zhvilluesin. href=”https://blog.google/technology/google-deepmind/gemini-computer-use-model/”target=”_ bosh”> tejkalon alternativat kryesore në disa standarde të kontrollit në internet dhe celular , duke përfshirë online-mind2web dhe Androidworld, ndërsa mbajnë më të ulët kohe. Partnerët e hyrjes së hershme i kanë bërë jehonë këtyre pretendimeve të performancës. Parsing kontekstin në raste komplekse, duke rritur performancën deri në 18% në evalet tona më të vështira.”
Pavarësisht inovacionit të shpejtë, pyetjet në lidhje me efektivitetin e botës reale të këtyre agjentëve vazhdojnë. Ky skepticizëm ndahet nga disa drejtues të industrisë, me CEO të hutuar Aravind Srinivas duke kërkuar që”kushdo që thotë se agjentët do të punojnë në vitin 2025 duhet të jenë skeptikë.”
Për të adresuar rreziqet e mundshme, Google ka ndërtuar në roje të rëndësishme sigurie. Modeli mund lëshoni një”siguri_decision”që kërkon konfirmim të qartë të përdoruesit përpara se të ekzekutoni veprime potencialisht të ndjeshme, të tilla si bërja e një blerjeje ose trajtimi personal. Kjo qasje njerëzore-në-loop është një mbrojtje kritike pasi teknologjia piqet.