Το OpenAI παρουσίασε τον Operator, έναν πράκτορα τεχνητής νοημοσύνης που βασίζεται σε πρόγραμμα περιήγησης, ικανός να εκτελεί μια ποικιλία εργασιών στο διαδίκτυο, όπως κρατήσεις κρατήσεων, συμπλήρωση φορμών και διαχείριση παραγγελιών παντοπωλείου.

Διατίθεται αποκλειστικά σε συνδρομητές ChatGPT Pro. στο μηνιαίο πρόγραμμα $200, το εργαλείο αντιπροσωπεύει το τελευταίο βήμα του OpenAI προς την τεχνητή νοημοσύνη που αλληλεπιδρά ενεργά με ψηφιακά περιβάλλοντα.

Με την αξιοποίηση ενός νέου μοντέλου Computer-Using Agent (CUA), Ο χειριστής ξεχωρίζει από τους παραδοσιακούς βοηθούς τεχνητής νοημοσύνης που βασίζονται σε κείμενο ή προκαθορισμένους API.

“Ο χειριστής είναι ένας από τους πρώτους πράκτορες μας, οι οποίοι έχουν δυνατότητα AI να κάνει δουλειά για εσάς ανεξάρτητα — του αναθέτετε ένα καθήκον και θα το κάνει εκτελέστε το”, εξήγησε το OpenAI στην επίσημη ανακοίνωσή του.

Σχεδιασμένο για να μιμείται τις ανθρώπινες αλληλεπιδράσεις με γραφικές διεπαφές χρήστη (GUI), ο χειριστής ερμηνεύει και χειρίζεται στοιχεία στην οθόνη, όπως κουμπιά, αναπτυσσόμενα μενού και πεδία κειμένου, επιτρέποντάς του να λειτουργεί αποτελεσματικά σε ένα ευρύ φάσμα ιστότοπων.

Πώς λειτουργεί ο χειριστής

Στο δικό του. πυρήνα, ο χειριστής χρησιμοποιεί CUA, ένα μοντέλο που συνδυάζει το μοντέλο GPT-4o του OpenAI με προηγμένες δυνατότητες συλλογιστικής και όρασης.

Σε αντίθεση με τα παραδοσιακά συστήματα που βασίζονται σε API, το CUA επιτρέπει στον χειριστή να”βλέπει”και να αλληλεπιδρά με ιστοσελίδες μέσω στιγμιότυπων οθόνης. Αυτό επιτρέπει στον πράκτορα να λειτουργεί σε πλατφόρμες χωρίς να απαιτεί συγκεκριμένες ενσωματώσεις.

Οι χρήστες παρέχουν οδηγίες εργασίας μέσω μιας διεπαφής κειμένου και ο χειριστής τις επεξεργάζεται σε ένα απομακρυσμένο πρόγραμμα περιήγησης που φιλοξενείται στους διακομιστές του OpenAI

Το εργαλείο εκτελεί ενέργειες βήμα-βήμα, παύση για εισαγωγή δεδομένων από τον χρήστη, εάν αντιμετωπίσει εργασίες που απαιτούν ευαίσθητες πληροφορίες, όπως διαπιστευτήρια σύνδεσης ή επαληθεύσεις CAPTCHA

Ροή εργασίας παράγοντα AI Operator OpenAI (Εικόνα: OpenAI)

Το OpenAI έχει επίσης ενσωματώσει μια”λειτουργία εξαγοράς”, που επιτρέπει στους χρήστες να αναλαμβάνουν τον έλεγχο της συνεδρίας σε οποιαδήποτε χρόνος.

Επιπλέον, ο χειριστής υποστηρίζει πολλαπλές εργασίες. Οι χρήστες μπορούν να του ζητήσουν να εκτελεί πολλαπλές ενέργειες ταυτόχρονα, όπως η κράτηση ενός τραπεζιού στο OpenTable κατά την παραγγελία εισιτηρίων συναυλίας μέσω του StubHub. Το OpenAI σημειώνει ότι αυτές οι δυνατότητες απλοποιούν τις επαναλαμβανόμενες ροές εργασίας, εξοικονομώντας σημαντικό χρόνο στους χρήστες.

[ενσωματωμένο περιεχόμενο]

Μέτρα απορρήτου και ασφάλειας

Για την αντιμετώπιση των ανησυχιών σχετικά με το απόρρητο και την ασφάλεια. , το OpenAI έχει ενσωματώσει πολλαπλές διασφαλίσεις εντός του Operator. Πριν από την εκτέλεση οποιασδήποτε ενέργειας με εξωτερικές συνέπειες, όπως η ολοκλήρωση μιας αγοράς, ο αντιπρόσωπος διακόπτει και ζητά επιβεβαίωση χρήστη. Οι ευαίσθητες εργασίες, συμπεριλαμβανομένων των οικονομικών συναλλαγών ή των αποφάσεων αιτήσεων εργασίας, περιορίζονται σκόπιμα.

“Ο χειριστής είναι εκπαιδευμένος ώστε να διασφαλίζει ότι ο χρήστης διατηρεί τον έλεγχο ανά πάσα στιγμή”, εξήγησε ο ερευνητής του OpenAI, Casey Chu.

Σχετικά: AI Agent Safety – Η Nvidia αποκαλύπτει Microservices για έλεγχο περιεχομένου και jailbreak

Το Η προσεκτική πλοήγηση του συστήματος αποτρέπει ακούσιες ενέργειες, ενώ οι ρυθμίσεις απορρήτου επιτρέπουν στους χρήστες να διαγράφουν δεδομένα περιήγησης και να εξαιρεθούν από τη συνεισφορά των δεδομένων τους στην εκπαίδευση μοντέλων.

Δείκτες αναφοράς απόδοσης και ανταγωνιστικό πλεονέκτημα

Ο χειριστής εισέρχεται σε ένα αυξανόμενο πεδίο εργαλείων αυτοματισμού τεχνητής νοημοσύνης, συμπεριλαμβανομένου του Anthropic’s Computer Use και του Google DeepMind’s Mariner Αυτά τα ανταγωνιστικά μοντέλα στοχεύουν στην εκτέλεση εργασιών που βασίζονται σε πρόγραμμα περιήγησης, αλλά Το OpenAI βεβαιώνει ότι ο σχεδιασμός του χειριστή που λειτουργεί με CUA παρέχει ανώτερη απόδοση.

Στο WebVoyager, ένα σημείο αναφοράς που αξιολογεί την εκτέλεση εργασιών του προγράμματος περιήγησης, ο χειριστής σημείωσε 87%, ξεπερνώντας τις επιδόσεις Mariner (83,5%) και χρήση υπολογιστή της Anthropic χαρακτηριστικό (56%). Σε ευρύτερες αξιολογήσεις σε επίπεδο συστήματος, όπως το OSWorld, το οποίο δοκιμάζει εργασίες όπως η συγχώνευση αρχείων PDF και η επεξεργασία εικόνας, ο χειριστής πέτυχε 38,1% σε σύγκριση με τη χρήση υπολογιστή 22%.

Πηγή: OpenAI

Ενώ οι ανθρώπινοι δοκιμαστές εξακολουθούν να υπερτερούν της τεχνητής νοημοσύνης σε αυτά σημεία αναφοράς—σημείωση 72,4% στο OSWorld—Τα αποτελέσματα του χειριστή δείχνουν μετρήσιμη πρόοδος σε πρακτικές δυνατότητες τεχνητής νοημοσύνης.

Η Anthropic έχει περιγράψει το μοντέλο χρήσης υπολογιστή της ως ικανό να εκτελεί εργασίες που περιλαμβάνουν «δεκάδες ή και εκατοντάδες βήματα», σύμφωνα με τον επικεφαλής επιστήμονα Jared Kaplan. Ωστόσο, η εξάρτηση του χειριστή στην οπτική Η ερμηνεία και όχι τα API του επιτρέπουν να αλληλεπιδρά με ένα ευρύτερο φάσμα πλατφορμών, επεκτείνοντας την ευελιξία του.

OpenAI Operator AI Agent vs Claude 3.5 Sonnet «Χρήση υπολογιστή» – Σημείο αναφοράς OSWorld (Πηγή: OpenAI)

Εφαρμογές και περιπτώσεις χρήσης

Σε ζωντανές επιδείξεις, ο Operator παρουσίασε την ικανότητά του να αυτοματοποιεί διάφορες εργασίες. Ο ερευνητής του OpenAI, Yash Kumar, παρουσίασε το εργαλείο κλείνοντας μια κράτηση σε εστιατόριο στο OpenTable, αγοράζοντας εισιτήρια συναυλιών στο StubHub και προσθέτοντας αντικείμενα σε ένα καλάθι αγορών Instacart—όλα ταυτόχρονα.

Η Kumar τόνισε την εξοικονόμηση χρόνου που παρέχει ο χειριστής, δηλώνοντας,”Έχω ραντεβού κάθε Πέμπτη”, λέει ο Kumar.”Έτσι κάθε Πέμπτη πρωί, δίνω εντολή στον χειριστή να μου στέλνει μια λίστα με πέντε εστιατόρια που έχουν Ένα τραπέζι για δύο εκείνο το βράδυ, φυσικά, θα μπορούσα να το κάνω, αλλά μου παίρνει 10 λεπτά και συχνά ξεχνάω να το κάνω κράτηση.”

Το OpenAI συνεργάζεται επίσης με πλατφόρμες όπως το DoorDash, το Uber και το Priceline για να βελτιώσει τη λειτουργικότητα του εργαλείου. Για παράδειγμα, ο χειριστής μπορεί να προτείνει προκαθορισμένες υπηρεσίες για συγκεκριμένες εργασίες, όπως η επιλογή προτιμώμενων αεροπορικών εταιρειών στην Booking.com ή η κράτηση δρομολογίων μέσω της Uber.

Ένα ευρύτερο όραμα για την τεχνητή γενική νοημοσύνη

Η κυκλοφορία του Operator ευθυγραμμίζεται με τις ευρύτερες φιλοδοξίες του OpenAI για την επίτευξη τεχνητής γενικής νοημοσύνης (AGI). Το AGI αναφέρεται σε συστήματα τεχνητής νοημοσύνης ικανά να συλλογίζονται σε ανθρώπινο επίπεδο και να επιλύουν προβλήματα σε διάφορες εργασίες.

Σύμφωνα με τον Alexandr Wang, Διευθύνοντα Σύμβουλο της Scale AI, εργαλεία όπως το Operator αντιπροσωπεύουν ένα ουσιαστικό βήμα προς αυτόν τον στόχο.”Το AGI θα οριστεί από συστήματα που μπορούν να χρησιμοποιούν υπολογιστές όπως ακριβώς και οι άνθρωποι”, εξήγησε ο Wang, προβλέποντας ότι τέτοιες εξελίξεις θα μπορούσαν να εμφανιστούν μέσα στα επόμενα δύο έως τέσσερα χρόνια.

Ενώ ο χειριστής παραμένει στην ερευνητική του φάση, το OpenAI σχεδιάζει. για να επεκτείνει τη διαθεσιμότητά του σε χρήστες ChatGPT Plus, Team και Enterprise Επιπλέον, η εταιρεία στοχεύει να κυκλοφορήσει το μοντέλο CUA ως API, επιτρέποντας στους προγραμματιστές να δημιουργήσουν προσαρμοσμένα. πράκτορες προσαρμοσμένοι σε συγκεκριμένους κλάδους.

Μελλοντική ανάπτυξη και περιορισμοί

Παρά τα πολλά υποσχόμενα χαρακτηριστικά του, ο χειριστής αντιμετωπίζει επί του παρόντος πολύπλοκες ροές εργασίας, όπως η διαχείριση ημερολογίων ή η δημιουργία slideshows Το OpenAI αναγνωρίζει αυτούς τους περιορισμούς, τονίζοντας ότι τα σχόλια των χρηστών θα είναι κρίσιμα για τη βελτίωση του εργαλείου Οι δυνατότητες του χειριστή απευθείας στο ChatGPT για απρόσκοπτη εκτέλεση εργασιών.

Το μακροπρόθεσμο όραμα του OpenAI περιλαμβάνει την τοποθέτηση του χειριστή ως κάτι περισσότερο από ένα απλό εργαλείο παραγωγικότητας Με την αυτοματοποίηση περίπλοκων ροών εργασίας, η εταιρεία ελπίζει να επαναπροσδιορίσει τον τρόπο αλληλεπίδρασης των χρηστών με τα ψηφιακά συστήματα. ανοίγοντας το δρόμο για ευρύτερες εφαρμογές στις επιχειρήσεις, την εκπαίδευση και τις δημόσιες υπηρεσίες.

Categories: IT Info