Τα νέα μοντέλα του OpenAI-O3 και O4-Mini-σημειώνουν μια απότομη αλλαγή σε αυτό που μπορεί να κάνει το ChatGpt χωρίς να του πει. Για πρώτη φορά, το σύστημα δεν ανταποκρίνεται μόνο στις προτροπές-μπορεί να αποφασίσει, να σχεδιάσει και να ενεργήσει. Αυτά τα μοντέλα μπορούν να επιλέξουν ποια εσωτερικά εργαλεία που θα χρησιμοποιήσουν-είτε πρόκειται για περιήγηση, ανάγνωση αρχείων, εκτέλεση κώδικα ή δημιουργία εικόνων-και ξεκινούν αυτές τις ενέργειες ανεξάρτητα. Το OpenAi περιγράφει αυτό ως το πρώτο βήμα προς την”πρώιμη συμπεριφορά της πρακτικής”. Αντικαθιστά προηγούμενα μοντέλα όπως O1 και O3-Mini και είναι διαθέσιμα στους χρήστες με πρόσβαση σε εργαλεία. Η εταιρεία δηλώνει ότι αυτά τα μοντέλα μπορούν τώρα να αποφασίσουν ανεξάρτητα ποια εργαλεία θα χρησιμοποιήσουν και πότε, χωρίς την προτροπή των χρηστών. Για παράδειγμα, ένας χρήστης μπορεί να μεταφορτώσει ένα σύνθετο αρχείο και απλά να ζητήσει”μια περίληψη των βασικών ζητημάτων”. Στη συνέχεια, το μοντέλο θα καταλάβει εάν θα χρησιμοποιήσει το εργαλείο αρχείων, τον διερμηνέα κώδικα ή το πρόγραμμα περιήγησης-και θα εκτελέσει αυτά τα ίδια τα βήματα. Src=”Δεδομένα: εικόνα/svg+xml; nitro-empty-id=mtcxotoxnjk2-1, base64, phn2zyb2awv3qm94psiwidagmtaynca5md Qiihdpzhropsixmdi0iibozwlnahq9ijkwncigeg1sbnmm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>> [Ενσωματωμένο περιεχόμενο]

Η συλλογιστική, η μνήμη και η οπτική νοημοσύνη

Το μοντέλο O3 αρχικά προεπισκόπηση τον Δεκέμβριο του 2024 και αργότερα έδωσε προτεραιότητα σε σχέση με το GPT-5 μετά τη μετατόπιση της στρατηγικής του OpenAI στις αρχές Απριλίου. Η OpenAi μετατοπίστηκε στρατηγική στις αρχές Απριλίου για να διαχωρίσει τις γραμμές μοντέλων συλλογιστικής και ολοκλήρωσης μετά από αρχικά προγραμματισμό για να συγχωνεύσει τις δυνατότητες O3 σε GPT-5. Υποστηρίζουν λειτουργίες όπως ζουμ, περιστροφή και ερμηνεία οπτικών στοιχείων-μια ικανότητα που βασίζεται στην κορυφή της ενημέρωσης GPT-4O που πρόσθεσε την επεξεργασία και την επεξεργασία εικόνων στο ChatGPT τον Μάρτιο του 2025. Στις 11 Απριλίου, η OpenAI ενεργοποίησε μια λειτουργία”ανάκλησης”που επιτρέπει στο μοντέλο να αναφέρει τα γεγονότα, τις οδηγίες ή τις προτιμήσεις από προηγούμενες συνομιλίες σε όλη τη φωνή, το κείμενο και την εικόνα. Αυτό το σύστημα υποστηρίζει τόσο τις αποθηκευμένες μνήμες όσο και τις σιωπηρές αναφορές στο ιστορικό συνομιλίας. Ένας χρήστης θα μπορούσε, για παράδειγμα, να ζητήσει από το ChatGpt να παρακολουθεί θέματα έρευνας σε διάφορα PDFs και το μοντέλο θα είναι σε θέση να ανακαλέσει τις προηγούμενες περιλήψεις και να συρράψουν τα σχετικά με τα στοιχεία που κυκλοφορούν αυτόματα. Διάφοροι τομείς, υπογραμμίζοντας τα πλεονεκτήματα τους σε σχέση μεταξύ τους και τα προηγούμενα μοντέλα. Για τις απαιτητικές αξιολογήσεις των μαθηματικών ανταγωνισμού όπως το AIME 2024 και το 2025 (δοκιμασμένες χωρίς βοήθεια εργαλείων), ο O4-Mini πέτυχε την υψηλότερη ακρίβεια, οδηγώντας στενά O3. Και τα δύο μοντέλα υπερέβησαν ουσιαστικά τις προηγούμενες εκδόσεις O1 και O3-Mini.

Αυτό το μοτίβο που διατηρήθηκε για ερωτήσεις επιστήμης σε επίπεδο διδακτορικού επιπέδου που μετρήθηκαν από το GPQA Diamond, όπου ο O4-Mini και πάλι ελαφρώς έπεσε στο O3, που επιδεικνύει αξιοσημείωτη βελτίωση έναντι των προκατόχων τους. Κατά την αντιμετώπιση ευρείων ερωτήσεων σε επίπεδο εμπειρογνωμόνων (“Τελευταία εξέταση της ανθρωπότητας”), η O3 αξιοποιώντας τα Python και τα εργαλεία περιήγησης έδωσε ισχυρά αποτελέσματα, δεύτερον μόνο σε μια εξειδικευμένη βαθιά ερευνητική διαμόρφωση. Το μοντέλο O4-Mini, χρησιμοποιώντας επίσης εργαλεία, εκτελείται καλά, παρουσιάζοντας ένα ξεχωριστό πλεονέκτημα σε σχέση με την έκδοση χωρίς εργαλεία και τα παλαιότερα μοντέλα. Σχετικά με τις εργασίες κωδικοποίησης του ανταγωνισμού, το O4-Mini (όταν συνδυάζεται με ένα εργαλείο τερματικού) εξασφάλισε την υψηλότερη βαθμολογία ELO, ακολουθούμενη από το O3 χρησιμοποιώντας το ίδιο εργαλείο. Αυτές οι βαθμολογίες αντιπροσωπεύουν μια σημαντική πρόοδο σε σύγκριση με τα O3-Mini και O1. Ενώ το O4-Mini-High είχε καλύτερη απόδοση από το O1-High και το O3-Mini-High, έπεσε στο O3-High σε αυτό το συγκεκριμένο τεστ. Για επαληθευμένες εργασίες μηχανικής λογισμικού στο Swe Bench, το O3 έδειξε ένα ελαφρύ μόλυβδο πάνω από το O4-Mini, αν και οι δύο ήταν σαφώς ανώτεροι από τα O1 και O3-Mini. Παρουσιάστηκε αξιοσημείωτη εξαίρεση στην προσομοίωση εργασίας Freelance, όπου το παλαιότερο μοντέλο O1-υψηλού μοντέλου δημιούργησε υψηλότερα προσομοιωμένα κέρδη από τα νεότερα μοντέλα O3-High, O4-Mini-High και O3-Mini-High. Src=”Δεδομένα: εικόνα/svg+xml; nitro-empty-id=mtczoto5njq=-1, base64, phn2zyb2awv3qm94psiwidagnzu1iduw Osigd2lkdgg9ijc1nsigagvpz2h0psi1mdkiihhtbg5zpsjodhrwoi8vd3d3lnczlm9yzy8ymdawl3n2zyi+pc9zdmc+”>

Δεξιότητες AGANGIC: Οι οδηγίες που ακολουθούν, τη χρήση εργαλείων και τη λειτουργία που καλούν

Οι βελτιωμένες λειτουργίες των νέων μοντέλων αντικατοπτρίζονταν σε συγκεκριμένες δοκιμές. Στην κλίμακα MultiChallenge για εντολή πολλαπλών στροφών που ακολούθησαν, η O3 πέτυχε το κορυφαίο σκορ, μπροστά από τα O1, O4-Mini και O3-Mini. Στις δοκιμές περιήγησης στο Web Agentic (Browsecomp), η O3 χρησιμοποιώντας την Python και την περιήγηση εμφάνισαν υψηλή ακρίβεια, ξεπερνώντας σημαντικά την ικανότητα του O1. Src=”Δεδομένα: Εικόνα/SVG+XML, Nitro-Empty-ID=MTC1MTO4MTQ=-1, BASE64, PHN2ZYB2AWV3QM94PSIWIDAGNJM1IDU1 Niigd2lkdgg9ijyznsigagvpz2h0psi1ntyiihhtbg5zpsjodhrwoi8vd3d3lnczlm9yzy8ymdawl3n2zyi+pc9zdmc+”>

Το μοντέλο O4-Mini με εργαλεία κατέδειξε επίσης την ικανότητα στην περιήγηση, αν και η βαθμολογία του ήταν χαμηλότερη από την O3 σε αυτή τη ρύθμιση. Η απόδοση της κλήσης λειτουργίας, που αξιολογείται μέσω του Tau Bench, ποικίλλει ανάλογα με τον τομέα των εργασιών. Η διαμόρφωση O3-υψηλής διαμόρφωσης που υπερβαίνει στον τομέα λιανικής πώλησης, ενώ το O1-υψηλό κράτησε ένα ελαφρύ άκρο στον τομέα της αεροπορικής εταιρείας σε σύγκριση με το O3-High και το O4-Mini-High. Παρ’όλα αυτά, το O4-Mini-High έδειξε γενικά ισχυρή ικανότητα κλήσης λειτουργίας και στους δύο τομείς σε σχέση με το O3-Mini-High. Σε διάφορα πολυτροπικά σημεία αναφοράς, συμπεριλαμβανομένου του MMMU (οπτικής επίλυσης προβλημάτων σε επίπεδο κολλεγίων), του Mathvista (Visual Math Reasoning) και του Charxiv-ovening (ερμηνεία επιστημονικής φιγούρας), το μοντέλο O3 πέτυχε σταθερά τα υψηλότερα αποτελέσματα ακρίβειας σύμφωνα με τα στοιχεία του OpenAI. Το μοντέλο O4-Mini πραγματοποίησε σχεδόν επίσης, ακολουθώντας στενά πίσω από το O3. Τόσο το O3 όσο και το O4-Mini σημείωσαν σημαντική βελτίωση σε σχέση με το μοντέλο O1 σε αυτές τις δυνατότητες οπτικής συλλογιστικής. Src=”Δεδομένα: εικόνα/svg+xml; nitro-empty-id=mtc2nzoxnjm3-1, base64, phn2zyb2awv3qm94psiwidagmtaynca5od CiiHdpzhropsixmdi0iibozwlnahq9ijk4nyigeg1sbnmm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>>

Αποδοτικότητα και απόδοση κόστους

Πέρα από την ακατέργαστη ικανότητα, τα δεδομένα αναφοράς του OpenAI υποδεικνύουν σημαντικά βήματα στην αποτελεσματικότητα του μοντέλου. Το μοντέλο O4-Mini έδωσε σταθερά υψηλότερη απόδοση από το O3-Mini σε βασικά σημεία αναφοράς όπως το AIME 2025 και το GPQA Pass@1 σε διαφορετικές λειτουργικές ρυθμίσεις (χαμηλό, μεσαίο, υψηλό), ενώ ταυτόχρονα έχουν χαμηλότερο εκτιμώμενο κόστος συμπερασμάτων. Παρόμοιο πλεονέκτημα παρατηρήθηκε για το O3 σε σύγκριση με το O1. Το O3 πέτυχε σημαντικά καλύτερα αποτελέσματα στα ίδια σημεία αναφοράς, αλλά με μειωμένο εκτιμώμενο κόστος για συγκρίσιμες ρυθμίσεις. Αυτό υποδηλώνει ότι οι εξελίξεις της σειράς Ο περιλαμβάνουν όχι μόνο μεγαλύτερη νοημοσύνη αλλά και βελτιωμένη υπολογιστική απόδοση. Src=”Δεδομένα: Εικόνα/SVG+XML; Nitro-Empty-ID=MTC3OTOXMTQ0-1, BASE64, PHN2ZYB2AWV3QM94PSIWIDAGMTAYNCA2MD Eiihdpzhropsixmdi0iibozwlnahq9ijywmsigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>>

Συνολικά, τα δεδομένα απόδοσης από το OpenAI υποδεικνύουν ότι το O3 συχνά ορίζει το σήμα υψηλού νερού, ιδιαίτερα σε πολύπλοκες λειτουργίες πρακτορείων και πολυτροπικών καθηκόντων. Ταυτόχρονα, το O4-Mini αποδεικνύεται ότι είναι ένα πολύ ικανό και ιδιαίτερα αποτελεσματικό μοντέλο, συχνά ταιριάζει ή ακόμη και υπερβαίνει το O3 σε συγκεκριμένες συλλογιστικές και κωδικοποιώντας σημεία αναφοράς, προσφέροντας σημαντική εξοικονόμηση κόστους σε σύγκριση με το O3-Mini. Και τα δύο νέα μοντέλα αντιπροσωπεύουν ένα σαφές και σημαντικό βήμα προς τα εμπρός από τις προηγούμενες προσφορές OpenAI στις περισσότερες δοκιμασμένες δυνατότητες. Η εταιρεία ενημέρωσε πρόσφατα το πλαίσιο ετοιμότητας της για να επιτρέψει τη χαλάρωση ορισμένων πρωτοκόλλων ασφαλείας εάν ένας αντίπαλος απελευθερώσει ένα μοντέλο υψηλού κινδύνου χωρίς παρόμοιες διασφαλίσεις. Η εταιρεία έγραψε:”Εάν ένας άλλος προγραμματιστής AI Frontier απελευθερώνει ένα σύστημα υψηλού κινδύνου χωρίς συγκρίσιμες διασφαλίσεις, μπορούμε να προσαρμόσουμε τις απαιτήσεις μας”. είναι.”Πρόσθεσε ότι η αυτοματοποίηση είχε επιτρέψει ταχύτερες αξιολογήσεις ασφαλείας. Ένας πρώην υπάλληλος προειδοποίησε:”Είναι κακή πρακτική να απελευθερωθεί ένα μοντέλο που είναι διαφορετικό από αυτό που αξιολογήσατε.”

Το ενημερωμένο πλαίσιο εισήγαγε επίσης νέες κατηγορίες ερευνών για την παρακολούθηση των κινδύνων όπως η αυτόνομη αντιγραφή, ο χειρισμός της εποπτείας και ο σχεδιασμός των μακρινών Horizon. Ο DeepMind πρότεινε ένα παγκόσμιο πλαίσιο ασφαλείας AGI στις αρχές Απριλίου, ενώ ο Anthropic δημοσίευσε ένα εργαλείο ερμηνείας για να καταστήσει τη λήψη αποφάσεων του Claude πιο διαφανής. Ωστόσο, και οι δύο εταιρείες αντιμετώπισαν τον έλεγχο-ανθρωπογενείς για την κατάργηση των δεσμεύσεων της δημόσιας πολιτικής και το DeepMind για την προσφορά περιορισμένων λεπτομερειών επιβολής. Τα μοντέλα O3 και O4-Mini δεν είναι απλώς πιο έξυπνα-ενεργούν με τη δική τους κρίση. Η Microsoft έχει ήδη ενσωματώσει το μοντέλο O3-Mini-High στο δωρεάν επίπεδο Copilot. Πιο πρόσφατα, η εταιρεία ξεκίνησε ένα χαρακτηριστικό του Copilot Studio που επιτρέπει στους πράκτορες της AI να αλληλεπιδρούν άμεσα με εφαρμογές επιφάνειας εργασίας και ιστοσελίδες. Αυτοί οι πράκτορες μπορούν να προσομοιώσουν ενέργειες χρήστη, όπως κουμπιά κάνοντας κλικ ή να εισάγουν δεδομένα-ιδιαίτερα χρήσιμα όταν τα API δεν είναι διαθέσιμα. Αυτή η γραμμή είναι βελτιστοποιημένη για κωδικοποίηση, προτροπές μακρού περιεχομένου και παρακολούθηση οδηγιών, αλλά στερείται αυτόνομης χρήσης εργαλείων-ο οποίος προβάλλει την απελευθέρωση της στρατηγικής τμηματοποίησης OpenAi μεταξύ των μοντέλων GPT και της νέας φάσης. Τα μοντέλα δεν παράγουν μόνο απαντήσεις-σχεδιάζουν, λόγο και επιλέγουν πώς να ενεργούν. Είτε αναλύει ένα επιστημονικό έγγραφο, τον κώδικα εντοπισμού σφαλμάτων, είτε τη ρύθμιση μιας εικόνας, αυτά τα μοντέλα μπορούν τώρα να αποφασίσουν ποια μέτρα πρέπει να ληφθούν χωρίς να περιμένουν οδηγίες. Αλλά τα συστήματα πράκτορα εγείρουν επίσης νέες ανησυχίες: πόσο διαφανές είναι ο συλλογισμός τους; Τι συμβαίνει όταν κάνουν κακή κλήση ή κακομεταχειρίζονται ένα εργαλείο; Αυτές οι ερωτήσεις δεν είναι πλέον θεωρητικές. Καθώς οι O3 και O4-Mini κυκλοφορούν σε εκατομμύρια χρήστες, η πραγματική απόδοση-και η λογοδοσία-πρόκειται να δοκιμαστούν.

Categories: IT Info