A Google-nak Gemini 2.5 számítógéphasználati modelljét, amely a webes böngésző előnézetét nyújtja be a felhasználók számára, bejelentette a fejlesztői előnézetét. Az eszköz most A fejlesztők számára elérhető a Google Ai Studio segítségével. Vertex AI .
Ez a kiadás a Google-t közvetlen versenybe helyezi a riválisok hasonló AI ügynökeivel, mint például az Openai és az Antropic. A technológia lehetővé teszi az AI számára, hogy megnézze, mi van a képernyőn, majd kattintson, írja be és navigáljon a webhelyeken a komplex digitális házimunkák automatizálásához. Célja, hogy olyan asszisztenseket hozzon létre, amelyek aktívan elvégezhetik a felhasználó nevében végzett munkát, és eszkalálják a versenyt az igazán autonóm AI-ügynökök felépítésére. src=”adatok: image/svg+xml; nitro-üres-id=mty2mdo5mjc=-1; base64, phn2zyb2awv3qm94psiwidagmtawmca0md Qiihdpzhropsixmdawiibozwlnahq9ijqwncigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>”>”>”>”>”>”>”>”>”>”>”>”>”>”>
Hogyan tanulja meg a Gemini kattintást, gépelést és görgetést
A Gemini 2.5 A számítógéphasználati modell működik, amit a Google dokumentációja .
A szöveges generálása helyett az AI célja a műveletek előállítása. A folyamat akkor kezdődik, amikor egy fejlesztő elküldi egy kezdeti kérelmet, amely magában foglalja a felhasználó magas szintű célját, a jelenlegi környezet képernyőképét és a legújabb műveletek történetét. Ezután egy választ generál, jellemzően egy `function_call”nevű strukturált parancsot, amely egy adott felhasználói felület műveletet képvisel, például egy koordinátára kattintás vagy a szöveget egy mezőbe történő beírásra. A fejlesztő saját ügyféloldali kódja megkapja a `function_call”-t, és felelős annak, hogy azt egy valódi parancsra fordítsa a célkörnyezetben, például egy böngésző. A modellt elsősorban a böngészőkre optimalizálják, de a Google szerint a mobil felhasználói felület vezérlésére is ígéretet mutat. Ezt az új állapotot ezután visszajuttatják a számítógéphasználati modellbe, mint „function_response”, a hurok újraindításával. Ez az iteratív folyamat lehetővé teszi az ágenst a értékelést, és meghatározza a következő logikai lépést, amíg a felhasználó feladata nem teljes. Képességei között szerepel a navigáció az egyes URL-ekhez, a keresősáv használatával, a görgetéssel, a kurzor lebegésével a menük felfedésére, sőt drag-and-drop műveletek végrehajtása, sokoldalú eszközkészlet adva a web alapú munkafolyamatok automatizálásához. egy már versenyképes területen, amely a technológiai óriások körében növeli a versenyt a megfelelő „Agentic AI” kifejlesztésére. Az antropikus egy korai mozgató volt, amely 2024 októberében vezette be a „számítógépes használat” funkciót a Claude 3.5 szonett modelljéhez. Miután 2025 januárjában bemutatta kezdeti „operátor” ügynökét, a vállalat 2025 júliusában indította el a sokkal erősebb CHATGPT ügynököt. A Google csak böngészőjével foglalkozó modelljével ellentétben a Chatgpt Agent „virtuális számítógépet” üzemeltet, és hozzáférést biztosít a terminálhoz a kód végrehajtásához, a böngészővel. A böngészővel együtt. A Canilot Studio-t is a Canilot Studio. Mint egy Microsoft VP, Charles Lamanna, tömören megragadta az iparág végső célját: „Ha egy személy használhatja az alkalmazást, akkor az ügynök is képes.”
Míg a Gemini 2.5 számítógépes felhasználási modell egy új nyilvános kiadás, a Google hosszú távú belső kutatására épül. Ennek a technológiának a verziói már olyan belső eszközöket táplálnak, mint például a kutatási prototípus prototípus-tengerész és az ügynöki funkciók az AI módban a keresésben, egyértelmű utat mutatva a kísérlettől a fejlesztővel szembeni termékig. href=”https://blog.google/technology/google-deepmind/gemini-computer-use-model/”cél=”_ blank”> felülmúlja a vezető alternatívákat számos webes és mobil vezérlési referenciaértéken, beleértve az Online-Mind2Web-t és az Androidworld-t, miközben fenntartja az alsó latenciát. A korai hozzáférési partnerek visszhangozták ezeket a teljesítményi igényeket. A kontextus elemzése összetett esetekben, a teljesítmény legfeljebb 18%-kal növelve a legkeményebben. Ezt a szkepticizmust néhány iparági vezetõ osztja meg, és Aravind Srinivas zavart vezérigazgatója sürgette, hogy „bárki, aki azt mondja, hogy az ügynökök 2025-ben működnek, szkeptikusnak kell lenniük.”
A potenciális kockázatok kezelése érdekében a Google jelentős biztonsági védőkorlátokat épített be. A modell lehet kiad egy „Safety_Decision” kiadását, amely explicit felhasználói megerősítést igényel. Ez a hurok-hurok-megközelítés kritikus biztosíték, ahogy a technológia érlelődik.