Ανάπτυξη ιστορίας-παρακαλώ ελέγξτε ξανά σε λεπτό ή δύο
OpenAI εισήγαγε το GPT-4.5, το branding It ως το πιο εκτεταμένο και ενημερωμένο μοντέλο που έχει κατασκευάσει μέχρι στιγμής η εταιρεία. Αλλά υπάρχει ένα catch-openai επιμένει ότι αυτό δεν είναι ένα σημαντικό τεχνολογικό άλμα. Το GPT-4.5, διαθέσιμο ως ερευνητική προεπισκόπηση, βελτιώνει τον προκάτοχό του GPT-4O, αλλά δεν φέρνει τα είδη των προόδων που θα το ταξινομούν ως σύστημα AI Frontier. Ενώ η OpenAI ισχυρίζεται ότι το GPT-4.5 βελτιώνει την πραγματική ακρίβεια και δημιουργεί πιο φυσικές απαντήσεις, η εταιρεία αναγνωρίζει ότι πέφτει πίσω από τα εξειδικευμένα μοντέλα λογικής σε ορισμένες περιοχές. Το OpenAi το περιγράφει ως υπολογιστικά πιο αποτελεσματικό από το GPT-4, επιτυγχάνοντας πάνω από δέκα φορές καλύτερη απόδοση στην εξουσία επεξεργασίας. Η εκκίνηση (SFT) και η μάθηση ενίσχυσης από την ανθρώπινη ανατροφοδότηση (RLHF). Αυτή η προσέγγιση προορίζεται να καταστήσει τις αλληλεπιδράσεις πιο ρευστά, να ελαχιστοποιήσει τις λανθασμένες απαντήσεις και να βελτιώσει τη χρηστικότητα σε εφαρμογές πραγματικού κόσμου. Άλλα μοντέλα όπως τα O1 και O3-Mini αποδίδουν καλύτερα σε συγκεκριμένες περιοχές, ιδιαίτερα σε δομημένες επίλυση προβλημάτων και λογικές αξιολογήσεις. Το μοντέλο παρουσιάζεται ως ένα ισχυρό και ευέλικτο γλωσσικό μοντέλο γενικής χρήσης, παρουσιάζοντας βελτιώσεις σε βασικούς τομείς όπως η μείωση της ψευδαίσθησης και η πολυγλωσσική κατανόηση. Ωστόσο, τα δείκτες αναφοράς απόδοσης αποκαλύπτουν ότι ενώ ξεπερνά τον προκάτοχό του, το GPT-4O, δεν φτάνει αρκετά στα ύψη ορισμένων από τα πιο εξειδικευμένα μοντέλα της OpenAI σε καθήκοντα που απαιτούν προηγμένη λογική και αυτονομία. Αυτό υποδηλώνει την εστίαση στην ευρεία δυνατότητα εφαρμογής και όχι στην προώθηση της αιχμής των εξαιρετικά ειδικών δυνατοτήτων.
Μια από τις σημαντικότερες βελτιώσεις είναι ο χώρος της πραγματικής ακρίβειας και η μείωση των ψευδαισθήσεων. Στο σημείο αναφοράς PersonQA, το οποίο παρουσιάζει ερωτήματα σχετικά με τα διαθέσιμα στο κοινό σχετικά με τα άτομα, το GPT-4.5 αποδεικνύει ένα σημαντικά υψηλότερο ποσοστό ακρίβειας (78%) σε σύγκριση με το GPT-4O (28%) και ακόμη και υπερβαίνει την O1 (55%). Αυτό δείχνει μια ισχυρότερη γείωση στην πραγματικότητα και μια μειωμένη τάση να εφεύρει πληροφορίες. Το OpenAI αξιολόγησε το GPT-4,5 σε μια επαγγελματικά μεταφρασμένη έκδοση του αναφορά αναφοράς MMLU (Massive MultItask Language Condering). Το MMLU είναι μια ολοκληρωμένη δοκιμασία που αξιολογεί τη γνώση ενός μοντέλου σε ένα ευρύ φάσμα θεμάτων, προσομοιώνοντας μια κατανόηση σε ανθρώπινο επίπεδο σε πολλαπλούς κλάδους. Τα αποτελέσματα είναι σαφή: η GPT-4,5 ξεπερνά τις γλωσσικές, τις οποίες η Ιταλική, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, η Ιαπωνία, οι δεξιότητες των γλωσσών. Δοκιμάστε τη χρήση εσωτερικών ερωτήσεων συνέντευξης. Το μοντέλο έχει καλή απόδοση, ταιριάζοντας με τα αποτελέσματα της”βαθιάς έρευνας”σχετικά με τις ερωτήσεις κωδικοποίησης (ακρίβεια 79%) και την εκτέλεση ομοίως με το O1 και O3-Mini σε τμήματα πολλαπλών επιλογών (80% ακρίβεια). Με τα GPT-4O και O1, με εκτιμώμενη”βαθμολογία χρονικού ορίζοντα”περίπου 30 λεπτά, που είναι η διάρκεια των εργασιών που το μοντέλο μπορεί να ολοκληρώσει με την αξιοπιστία 50%. Ωστόσο, εξακολουθεί να υστερεί σημαντικά πίσω από το μοντέλο”βαθιάς έρευνας”, το οποίο πέτυχε μια σημαντικά υψηλότερη βαθμολογία. Ομοίως, σε μια συλλογή”πρακτικών καθηκόντων”που σχεδιάστηκαν για να αξιολογήσουν την απόκτηση πόρων και την επίλυση προβλημάτων σε ένα προσομοιωμένο περιβάλλον, το GPT-4.5 βαθμολογεί 40%, κυρίως χαμηλότερο από το”Deep Research”78%. Η οποία περιλαμβάνει την επίλυση των διαγωνισμών Kaggle (προκλήσεις της επιστήμης των δεδομένων και της μηχανικής μάθησης), η GPT-4.5 εκτελείται με το ίδιο τρόπο με τους υπαλλήλους O1, O3-Mini και Deep Research. Οι πραγματικές εργασίες μηχανικής λογισμικού, το GPT-4.5 καταδεικνύουν μικρές βελτιώσεις σε σχέση με το O1 και στα δύο μεμονωμένα καθήκοντα που συμβάλλουν (20% επιλύονται) και τα καθήκοντα διαχείρισης (44% επιλύονται), αλλά παραμένει σημαντικά πίσω από το”Deep”(46% και 51%, αντίστοιχα). GPT-4.5 σε μια αυστηρή μπαταρία αξιολογήσεων ασφαλείας, αντανακλώντας την αυξανόμενη σημασία της υπεύθυνης ανάπτυξης AI. Αυτές οι δοκιμές ανιχνεύουν την ικανότητα του μοντέλου να χειρίζεται επιβλαβείς αιτήσεις, να αντισταθεί στον χειρισμό και να αποφεύγει τη διαιώνιση των προκαταλήψεων. Ενώ το GPT-4.5 καταδεικνύει αυξημένη πρόοδο σε αρκετούς τομείς, τα αποτελέσματα ζωγραφίζουν μια σύνθετη εικόνα, υπογραμμίζοντας τις συνεχιζόμενες προκλήσεις στη δημιουργία πραγματικά ασφαλών και αμερόληπτων συστημάτων AI. Αυτό περιλαμβάνει κατηγορίες όπως η ομιλία μίσους, οι παράνομες συμβουλές και οι απαντήσεις που παραβιάζουν την ιδιωτική ζωή. Σε τυπικές αξιολογήσεις μόνο για κείμενο, η GPT-4.5 εκτελεί ισοδύναμη με τον προκάτοχό του, GPT-4O, αρνούμενος να παράγει μη ασφαλείς εξόδους. Αυτό υπογραμμίζει ένα συμβιβασμό: οι αυστηρότεροι έλεγχοι ασφαλείας μπορούν μερικές φορές να οδηγήσουν σε υπερβολικά προσεκτική συμπεριφορά.
Λεπτομερείς καταστροφές αυτών των αξιολογήσεων, ο διαχωρισμός των απαντήσεων ανά είδος του επιβλαβούς περιεχομένου (σεξουαλική, μίσος, αυτοτραυματισμός κλπ.) Αποκαλύπτει ότι το επίπεδο επιτυχίας στην άρνηση των αιτημάτων τέτοιων αιτημάτων ποικίλλει σε μεγάλο βαθμό ανάλογα με το θέμα. Τα πρωτόκολλα ασφαλείας του μοντέλου. επιθέσεις.
Η ικανότητα ενός μοντέλου να τηρεί μια προκαθορισμένη”ιεραρχία εντολών”είναι επίσης ζωτικής σημασίας για την ασφάλεια. Αυτό σημαίνει ότι εξασφαλίζουμε ότι οι οδηγίες σε επίπεδο συστήματος (που έχουν σχεδιαστεί για την προώθηση της ασφαλούς συμπεριφοράς) υπερισχύουν των δυνητικά αντικρουόμενων αιτημάτων χρηστών. Το GPT-4.5 γενικά ξεπερνά το GPT-4O στις ακόλουθες οδηγίες του συστήματος σχετικά με τις οδηγίες των χρηστών, αλλά είναι ελαφρώς πίσω από το μοντέλο O1 σε ορισμένα σενάρια. Συγκεκριμένα, σε ένα προσομοιωμένο σενάριο διδασκαλίας, το GPT-4,5 είναι πιο ευαίσθητο από το O1 να εξαπατηθεί σε αποκαλύψεις απαντήσεων, αν και εξακολουθεί να αποδίδει καλύτερα από το GPT-4O. Παρόμοιες τάσεις παρατηρούνται σε δοκιμές που έχουν σχεδιαστεί για να προστατεύουν συγκεκριμένες φράσεις και κωδικούς πρόσβασης. Το GPT-4.5 εκτελεί ελαφρώς καλύτερο από το GPT-4O σε ένα δύσκολο σύνολο αξιολόγησης της κόκκινης ομάδας, αλλά υποβαθμίζει τόσο την”βαθιά έρευνα”όσο και το O1 σε ένα άλλο, υποδεικνύοντας ότι εξακολουθεί να είναι επιρρεπής σε προβληματικό περιεχόμενο κάτω από την αντιφατική πίεση. Το μοντέλο ταξινομήθηκε ως”μεσαίου κινδύνου”συνολικά. Συγκεκριμένα, έλαβε μια”χαμηλή”βαθμολογία κινδύνου για την ασφάλεια στον κυβερνοχώρο, που σημαίνει ότι δεν προωθεί σημαντικά τις δυνατότητες που σχετίζονται με την εκμετάλλευση των ευπάθειας των υπολογιστών. Ωστόσο, έλαβε μια”μέση”αξιολόγηση κινδύνου τόσο για τη χημική όσο και για τη δημιουργία βιολογικών απειλών (CBRN) και την πειθώ. Στην κατηγορία CBRN, ενώ το μοντέλο μετά τη μετακίνηση αρνείται όλα τα βήματα στη διαδικασία δημιουργίας βιολογικών απειλών, το μοντέλο προ-μηχανισμού κατέδειξε κάποια ικανότητα να παρέχει ακριβείς πληροφορίες, ιδιαίτερα στο στάδιο”μεγέθυνση”. Για την πειθώ, η GPT-4.5 έδειξε υπερσύγχρονες επιδόσεις στις αξιολογήσεις συμφραζομένων, πράγμα που σημαίνει ότι μπορεί να είναι εξαιρετικά αποτελεσματική στην πείθει άλλα μοντέλα AI (προσομοίωση ανθρώπων) να αναλάβουν συγκεκριμένες ενέργειες, όπως η πληρωμή ή η λέξη μιας κωδικοποίησης. Αυτές οι”μέσες”αξιολογήσεις κινδύνου υπογραμμίζουν τις συνεχιζόμενες ανησυχίες και την ανάγκη για συνεχή επαγρύπνηση. Η αυτονομία του μοντέλου δηλώθηκε ως χαμηλός κίνδυνος. Ήδη από τον Μάιο του 2025. Η επόμενη σημαντική επανάληψη αναμένεται να διαθέτει λογική O3, ένα πιο προηγμένο σύστημα που το OpenAI έχει πειράξει από τα τέλη του 2024. Για ένα πιο προχωρημένο σύστημα AI.
Η μόλυνση στο GPT-4.5
Πριν από αυτή την ανακοίνωση, οι εικασίες γύρω από τα μοντέλα AI του OpenAi. Στρατηγική ενσωμάτωσης. Νωρίτερα φέτος, η εταιρεία ξεκίνησε το O3-Mini, ένα μοντέλο συλλογιστικής που θεωρήθηκε ότι αποτελεί πρώιμο δείκτη της προσέγγισης του OpenAI για την εκπαίδευση πολλαπλών μοντέλων. Η απόφαση να το προσφέρει κυρίως στους χρήστες του ChatGPT Pro ακολουθεί ένα μοτίβο που έχει χρησιμοποιήσει η εταιρεία για προηγούμενα μοντέλα. Η προσέγγιση του OpenAI φαίνεται να είναι συνεχές αναβαθμίσεις και όχι σπάνιες, τεράστιες αναθεωρήσεις-τουλάχιστον μέχρι να φτάσει το επόμενο μεγάλο άλμα στο λογικό AI.