Η Google έχει Το εργαλείο είναι τώρα που διατίθεται στους προγραμματιστές μέσω του Google ai Studio AI
Αυτή η έκδοση τοποθετεί την Google σε άμεσο ανταγωνισμό με παρόμοιους πράκτορες AI από αντιπάλους όπως OpenAi και Anthropic. Η τεχνολογία επιτρέπει στο AI να δει τι υπάρχει στην οθόνη και στη συνέχεια να κάνετε κλικ, να πληκτρολογήσετε και να περιηγηθείτε στις ιστοσελίδες για να αυτοματοποιήσετε πολύπλοκες ψηφιακές δουλειές.
Η κίνηση σηματοδοτεί ένα σημαντικό βήμα πέρα από τα απλά chatbots. Σκοπός του είναι να δημιουργήσει βοηθούς που μπορούν να ολοκληρώσουν ενεργά την εργασία για λογαριασμό του χρήστη, κλιμακώνοντας τον αγώνα για να δημιουργήσουν πραγματικά αυτόνομους πράκτορες AI.
>
Πώς ο Gemini μαθαίνει να κάνει κλικ, πληκτρολογήστε και κύλιση
Στον πυρήνα του, το μοντέλο υπολογιστών Gemini 2.5 λειτουργεί σε αυτό που περιγράφει την τεκμηρίωση της Google”> Loop
Αντί να δημιουργούν μόνο κείμενο, ο στόχος του AI είναι να παράγει δράσεις. Η διαδικασία αρχίζει όταν ένας προγραμματιστής στέλνει ένα αρχικό αίτημα, το οποίο περιλαμβάνει το στόχο υψηλού επιπέδου του χρήστη, ένα στιγμιότυπο οθόνης του τρέχοντος περιβάλλοντος και ένα ιστορικό πρόσφατων ενεργειών. Στη συνέχεια δημιουργεί μια απάντηση, συνήθως μια δομημένη εντολή που ονομάζεται `function_call`, η οποία αντιπροσωπεύει μια συγκεκριμένη δράση UI, όπως κλικ σε συντεταγμένη ή πληκτρολογώντας κείμενο σε ένα πεδίο.
[Ενσωματωμένο περιεχόμενο]
Ο κώδικας από την πλευρά του πελάτη του προγραμματιστή λαμβάνει το `function_call` και είναι υπεύθυνος για τη μετάφραση του σε μια πραγματική εντολή στο περιβάλλον στόχου, όπως ένα πρόγραμμα περιήγησης στο Web. Το μοντέλο είναι κυρίως βελτιστοποιημένο για προγράμματα περιήγησης, αλλά δείχνει επίσης υπόσχεση για τον έλεγχο κινητού χρήστη, σύμφωνα με την Google. Αυτή η νέα κατάσταση αποστέλλεται στη συνέχεια στο μοντέλο χρήσης του υπολογιστή ως `function_response’, επανεκκίνηση του βρόχου. Αυτή η επαναληπτική διαδικασία επιτρέπει στον πράκτορα να Αξιολογήστε το αποτέλεσμα της τελευταίας δράσης του και καθορίζει το επόμενο λογικό βήμα μέχρι να ολοκληρωθεί η εργασία του χρήστη. Οι δυνατότητές του περιλαμβάνουν την πλοήγηση σε συγκεκριμένες διευθύνσεις URL, τη χρήση της γραμμής αναζήτησης, την κύλιση, την αιωρούμενη από τον δρομέα για να αποκαλύψουν μενού και ακόμη και να εκτελούν λειτουργίες μεταφοράς και απόρριψης, δίνοντάς του μια ευέλικτη εργαλειοθήκη για την αυτοματοποίηση των ροών εργασίας που βασίζονται στο Web. θερμαίνει έναν ήδη ανταγωνιστικό τομέα, κλιμακώνοντας τον αγώνα μεταξύ των τεχνολογικών γίγαντες για να αναπτύξει ικανό”Agentic AI”.
Αυτή η νέα κατηγορία μοντέλου αντιπροσωπεύει ένα στρατηγικό κλάδο από τα συνομιλητικά chatbots σε αυτόνομα συστήματα που μπορούν να κατανοήσουν και να λειτουργήσουν ψηφιακές ροές εργασίας που σχεδιάστηκαν για ανθρώπους. Το Anthropic ήταν ένας πρώτος κινητήρας, εισάγοντας μια λειτουργία”χρήσης υπολογιστών”για το μοντέλο του Claude 3.5 Sonnet τον Οκτώβριο του 2024. Αφού εισήγαγε τον αρχικό του πράκτορα”Operator”τον Ιανουάριο του 2025, η εταιρεία ξεκίνησε τον πολύ πιο ισχυρό πράκτορα ChatGpt τον Ιούλιο του 2025. Ως ένας VP της Microsoft, ο Charles Lamanna, κατέλαβε συνοπτικά τον τελικό στόχο της βιομηχανίας,”Εάν ένα άτομο μπορεί να χρησιμοποιήσει την εφαρμογή, ο πράκτορας μπορεί επίσης.”Οι εκδόσεις αυτής της τεχνολογίας τροφοδοτούν ήδη εσωτερικά εργαλεία όπως το ερευνητικό πρωτότυπο έργο Mariner και τα χαρακτηριστικά AGANCIC εντός της λειτουργίας AI στην αναζήτηση, αποδεικνύοντας μια σαφή διαδρομή από το πείραμα στο προϊόν που αντιμετωπίζει ο προγραμματιστής. href=”https://blog.google/technology/google-deepmind/gemini-computer-use-model/”target=”_ blank”> υπερβαίνουν τις εναλλακτικές λύσεις σε διάφορα δείκτες ελέγχου ιστού και κινητής τηλεφωνίας. Οι συνεργάτες της πρώιμης πρόσβασης έχουν αντέξει αυτές τις αξιώσεις απόδοσης. Πλαίσιο σε πολύπλοκες περιπτώσεις, η αύξηση των επιδόσεων κατά 18% στις πιο δύσκολες EVALS.”
Παρά την ταχεία καινοτομία, ερωτήματα σχετικά με την πραγματική αποτελεσματικότητα αυτών των παραγόντων παραμένουν. Αυτός ο σκεπτικισμός μοιράζεται από ορισμένους ηγέτες της βιομηχανίας, με τον Διευθύνοντα Σύμβουλο Aravind Srinivas να προτρέπει ότι «όποιος λέει ότι οι πράκτορες θα εργαστούν το 2025 θα πρέπει να είναι σκεπτικοί». Το μοντέλο μπορεί έκδοση μιας `safety_decision` που απαιτεί ρητή επιβεβαίωση των χρηστών πριν από την εκτέλεση δυνητικά ευαίσθητων ενεργειών, όπως η πραγματοποίηση μιας αγοράς προσωπικών δεδομένων. Αυτή η προσέγγιση ανθρώπινου στο βρόχο είναι μια κρίσιμη εγγύηση καθώς η τεχνολογία ωριμάζει.