Η OpenAI αποκάλυψε τα τελευταία της μοντέλα τεχνητής νοημοσύνης, o3 και o3-Mini, τα οποία έχουν σχεδιαστεί για να υπερέχουν σε εργασίες που απαιτούν πολύπλοκη λογική συλλογιστική.
Ανακοινώθηκε κατά την ολοκλήρωση της εκδήλωσης”12 Days of OpenAI”του OpenAI. , τα μοντέλα βασίζονται στην επιτυχία της προηγούμενης οικογένειας μοντέλων o1 και ενσωματώνουν βελτιώσεις όπως ο ρυθμιζόμενος χρόνος συλλογισμού, ο Sam Altman, περιέγραψε το o3 ως ένα βήμα προς τα εμπρός αναπτύσσοντας τεχνητή νοημοσύνη ικανή να χειρίζεται «ολοένα και πιο σύνθετες εργασίες που απαιτούν προσεκτική λογική».
Η OpenAI είπε ότι δεν ονομάτισε τα νέα μοντέλα «o2» «από σεβασμό» για τη βρετανική μάρκα τηλεπικοινωνιών. Τα νέα μοντέλα είναι διαθέσιμα για προεπισκόπηση από ερευνητές ασφάλειας, με ευρύτερη δημόσια πρόσβαση να προγραμματίζεται για τις αρχές του επόμενου έτους.
Ημέρα 12: Πρόωρες αξιολογήσεις για το OpenAI o3 (ναι, παραλείψαμε έναν αριθμό)https://t.co/iWXg9IGuZM
— OpenAI (@OpenAI) 20 Δεκεμβρίου, 2024
Βελτιωμένες δυνατότητες συλλογιστικής και εφαρμογές
Η οικογένεια o3 εισάγει διάφορα χαρακτηριστικά που στοχεύουν στη βελτίωση της ικανότητας του AI για λογική επίλυση προβλημάτων. Το πιο αξιοσημείωτο είναι ότι τα μοντέλα επιτρέπουν στους χρήστες να προσαρμόζουν τον χρόνο που διατίθεται για συλλογισμό, επιτυγχάνοντας μια ισορροπία μεταξύ ταχύτητας και ακρίβειας.
Σύμφωνα με το OpenAI, αυτή η ικανότητα επιτρέπει στο o3 να αποδίδει καλύτερα σε ένα ευρύ φάσμα εργασιών, συμπεριλαμβανομένων προηγμένων μαθηματικών, προγραμματισμού και επιστημονικής ανάλυσης.
Σε αντίθεση με άλλα μοντέλα που εστιάζουν στη λογική, o3 όπως το o1 χρησιμοποιεί μια μεθοδολογία”ιδιωτικής αλυσίδας σκέψης”. Αυτό αναλύει τα προβλήματα σε μικρότερα, λογικά βήματα πριν δώσει λύση. Το OpenAI ισχυρίζεται ότι αυτή η προσέγγιση βοηθά στην ελαχιστοποίηση λάθη και διασφαλίζει ότι το μοντέλο παρέχει πιο αξιόπιστα αποτελέσματα για πολύπλοκα ερωτήματα.
Ο Altman ανέφερε ότι τα νέα μοντέλα έχουν σχεδιαστεί για να αντιμετωπίζουν εργασίες που παραδοσιακά εξαρτώνται από τις ανθρώπινες ικανότητες επίλυσης προβλημάτων.
Απόδοση σε βασικά σημεία αναφοράς
Οι εσωτερικές αξιολογήσεις του OpenAI φέρουν το o3 ως σημαντική βελτίωση σε σχέση με τον προκάτοχό του href=”https://arcprize.org/arc”>ARC-AGI, ένα σημείο αναφοράς που έχει σχεδιαστεί για να δοκιμάσει τη γενίκευση της τεχνητής νοημοσύνης, το o3 πέτυχε βαθμολογία 87,5%, σε σύγκριση με την κορυφαία βαθμολογία του o1 32%. επισημάνετε τα δυνατά σημεία του o3:
EpochAI Frontier Math: o3 έλυσε το 25,2% των προβλημάτων, υπερτερώντας όλων των άλλων Συστήματα AI, τα οποία ξεπερνούν το 2%. Το FrontierMath αξιολογεί τις δυνατότητες των συστημάτων τεχνητής νοημοσύνης σε προηγμένους μαθηματικούς συλλογισμούς. Το σημείο αναφοράς αποτελείται από εκατοντάδες πρωτότυπα, εξαιρετικά απαιτητικά μαθηματικά προβλήματα που καλύπτουν σημαντικούς κλάδους των σύγχρονων μαθηματικών, συμπεριλαμβανομένης της υπολογιστικής θεωρίας αριθμών, της πραγματικής ανάλυσης, της αλγεβρικής γεωμετρίας και της θεωρίας κατηγοριών.
AIME 2024: βαθμολογία o3 96,7%, με χαμένη μόνο μία ερώτηση. Το σημείο αναφοράς AIME (Artificial Intelligence Math Evaluation) 2024 έχει σχεδιαστεί για την αξιολόγηση των μαθηματικών δυνατοτήτων επίλυσης προβλημάτων των μοντέλων AI με βάση το 2024Εξετ. AIME. Αυτή η αξιολόγηση εστιάζει σε πολύπλοκες μαθηματικές προκλήσεις, παρόμοιες με αυτές που συναντώνται στην Αμερικανική Προσκλητήρια Μαθηματική Εξέταση, η οποία είναι γνωστή για τον έλεγχο των δεξιοτήτων μαθηματικών μαθηματικών γυμνασίου στις Ηνωμένες Πολιτείες.
GPQA Diamond: Πέτυχε ποσοστό ακρίβειας 87,7%, υπερέχοντας απαντώντας σε λογικά ερωτήματα υψηλού επιπέδου. Το GPQA Diamond αξιολογεί τις δυνατότητες των συστημάτων AI σε προηγμένο επιστημονικό σκεπτικό σε επίπεδο βιολογίας, φυσικής και χημείας σε μεταπτυχιακό επίπεδο. Αυτό το σημείο αναφοράς αποτελείται από 198 εξαιρετικά απαιτητικές ερωτήσεις πολλαπλής επιλογής, σχεδιασμένες να είναι δύσκολες ακόμη και για μη ειδικούς με υψηλή εξειδίκευση. Ο
François Chollet, συνδημιουργός του ARC-AGI, περιέγραψε αυτή την πρόοδο ως σταθερή αλλά αντανακλαστική μόνο μιας πτυχής γενικής νοημοσύνης.
Σήμερα το OpenAI ανακοίνωσε το o3, το μοντέλο λογικής επόμενης γενιάς. Συνεργαστήκαμε με το OpenAI για να το δοκιμάσουμε στο ARC-AGI και πιστεύουμε ότι αντιπροσωπεύει μια σημαντική ανακάλυψη στην προσαρμογή της τεχνητής νοημοσύνης σε νέες εργασίες.
Έχει σκορ 75,7% στην ημι-ιδιωτική αξιολόγηση σε χαμηλά επίπεδα.-υπολογιστική λειτουργία (για 20 $ ανά εργασία… pic.twitter.com/ESQ9CNVCEA
— François Chollet (@fchollet) 20 Δεκεμβρίου, 2024
Ο Chollet μοιράστηκε επίσης ορισμένα παραδείγματα εργασιών που το o3 δεν μπορούσε να λύσει σε ρυθμίσεις υψηλής υπολογιστικής λειτουργίας, τα οποία είναι διαθέσιμα στο GitHub για περαιτέρω ανάλυση.
Θα είναι επίσης εξαιρετικά σημαντικό. για να αναλύσετε τα πλεονεκτήματα και τους περιορισμούς του νέου συστήματος Ακολουθούν ορισμένα παραδείγματα εργασιών που το o3 δεν μπορούσε να λύσει σε ρυθμίσεις υψηλού υπολογισμού (ακόμη και αν δημιουργούσε εκατομμύρια μάρκες αναζήτησης CoT και κατανάλωνε χιλιάδες δολάρια… pic.twitter.com/IULyjAlxwV
— François Chollet (@fchollet) 20 Δεκεμβρίου 2024
Ασφάλεια και Περιορισμοί
Παρά τα επιτεύγματά του, Το o3 εγείρει ανησυχίες σχετικά με την ηθική ανάπτυξη και ασφάλεια. Τα μοντέλα συλλογισμού όπως το o1 βρέθηκαν να παρουσιάζουν υψηλότερη τάση για παραπλανητικές συμπεριφορές σε σύγκριση με την παραδοσιακή τεχνητή νοημοσύνη. Το OpenAI αναγνωρίζει ότι αυτοί οι κίνδυνοι θα μπορούσαν να παραμείνουν με το o3 και συνεργάζεται ενεργά με εξωτερικούς οργανισμούς για τη διεξαγωγή δοκιμών ασφαλείας.
Ο Altman πρότεινε σε μια πρόσφατη συνέντευξη ότι η κυκλοφορία προηγμένων συστημάτων τεχνητής νοημοσύνης θα πρέπει να καθοδηγείται από ισχυρά ομοσπονδιακά πλαίσια για να διασφαλιστεί ότι ασφάλεια και ευθύνη.
Σχετικά: Αποτελέσματα AI Safety Index 2024: OpenAI, Google, Meta, xAI Fall Short; Το Anthropic on Top
The Rise of Reasoning AI and Industry Rivalries
Η ανακοίνωση του OpenAI έρχεται σε μια περίοδο εντεινόμενου ανταγωνισμού μεταξύ των προγραμματιστών AI. Μόλις χθες, η Google παρουσίασε το μοντέλο Gemini 2.0 Flash Thinking, που περιγράφεται από τον Διευθύνοντα Σύμβουλο Sundar Pichai ως «το πιο προσεγμένο σύστημά μας».
Η δημοτικότητα της συλλογιστικής τεχνητής νοημοσύνης αντανακλά μια αυξανόμενη συναίνεση ότι η κλιμάκωση μοντέλων από μόνη της δεν είναι πλέον αρκετή για να επιτευχθεί Ωστόσο, αυτά τα συστήματα απαιτούν σημαντικούς υπολογιστικούς πόρους, εγείροντας ερωτήματα σχετικά με τη μακροπρόθεσμη κλιμάκωσή τους.
Σχετικά: Το νέο σημείο αναφοράς FACTS της Google μετρά την αλήθεια των μοντέλων AI
Ένα ευρύτερο πλαίσιο: o3 και τεχνητή γενική νοημοσύνη
Οι εξελίξεις του OpenAI με o3 έχουν αναζωπυρώσει τις συζητήσεις σχετικά με την τεχνητή γενική νοημοσύνη (AGI). Η επίτευξη του AGI θα είχε οικονομικές επιπτώσεις για τη συνεργασία του OpenAI με τη Microsoft, αλλάζοντας πιθανώς τη συμφωνία τους για την πρόσβαση στις τεχνολογίες της εταιρείας.
Ενώ η Altman σταμάτησε να δηλώσει το o3 ως AGI, η ισχυρή της απόδοσή στα σημεία αναφοράς υποδηλώνει ότι το OpenAI βρίσκεται σε εξέλιξη. πιο κοντά σε αυτόν τον φιλόδοξο στόχο. Ωστόσο, η εξωτερική επικύρωση και οι περαιτέρω δοκιμές θα είναι κρίσιμες για την επιβεβαίωση των δυνατοτήτων του μοντέλου.
Σχετικά: Το OpenAI επανεξετάζει τη ρήτρα AGI για την ασφαλή συνεργασία της Microsoft
Προηγούμενες ανακοινώσεις Κατά τη διάρκεια των”12 ημερών του OpenAI”
Στις 19 Δεκεμβρίου, το OpenAI αποκάλυψε μια ενημέρωση του Η εφαρμογή ChatGPT για υπολογιστές MacOS μπορούν πλέον να βιώσουν μια πιο διαδραστική και hands-free προσέγγιση για τη χρήση του ChatGPT, θολώνοντας περαιτέρω τα όρια μεταξύ της αλληλεπίδρασης ανθρώπου-υπολογιστή.
Στις 18 Δεκεμβρίου, το OpenAI κυκλοφόρησε μια δωρεάν χρέωση. αριθμός και πρόσβαση στο WhatsApp για το ChatGPT, καθιστώντας το chatbot AI πιο προσιτό.
Οι 17 Δεκεμβρίου έφεραν πρόσβαση στο API για την πλήρη έκδοση. Το μοντέλο o1 του OpenAI, βελτιώσεις στο API σε πραγματικό χρόνο για φωνητικές αλληλεπιδράσεις και μια νέα μέθοδος μικρορύθμισης προτιμήσεων.
Στις 16 Δεκεμβρίου, το OpenAI έκανε διαθέσιμη τη λειτουργία του ChatGPT ζωντανής αναζήτησης στον ιστό σε όλους τους χρήστες, επιτρέποντας σε οποιονδήποτε να ανακτήσει. ενημερωμένες πληροφορίες απευθείας από τον ιστό.
Οι 14 Δεκεμβρίου έφεραν νέες επιλογές προσαρμογής στο ChatGPT, επιτρέποντας στους χρήστες να εκσυγχρονίσουν τις εργασίες και να διαχειριστούν αποτελεσματικά τα έργα. Το Projects επιτρέπει στους χρήστες να ομαδοποιούν συνομιλίες, αρχεία και προσαρμοσμένες οδηγίες σε αποκλειστικούς φακέλους, δημιουργώντας έναν οργανωμένο χώρο εργασίας για τη διαχείριση εργασιών και ροών εργασίας.
Ως μια τεράστια βελτίωση στην προηγμένη λειτουργία φωνής για το ChatGPT, προστέθηκε το OpenAI στις 12 Δεκεμβρίου. δυνατότητες όρασης, που επιτρέπουν στους χρήστες να μοιράζονται ζωντανά βίντεο και οθόνες για ανάλυση και βοήθεια σε πραγματικό χρόνο.
Τον Δεκέμβριο. 11, Το OpenAI κυκλοφόρησε πλήρως το Canvas, έναν χώρο εργασίας συλλογικής επεξεργασίας που προσφέρει προηγμένα εργαλεία για βελτίωση κειμένου και κώδικα. Το Canvas που κυκλοφόρησε αρχικά σε έκδοση beta τον Οκτώβριο του 2024, αντικαθιστά την τυπική διεπαφή του ChatGPT με σχεδιασμό διαχωρισμένης οθόνης, επιτρέποντας στους χρήστες να εργάζονται σε κείμενο ή κώδικα ενώ συμμετέχουν σε συνομιλίες με το AI.
Η προσθήκη της εκτέλεσης Python είναι η προσθήκη της εκτέλεσης Python. ένα ξεχωριστό χαρακτηριστικό του Canvas, που επιτρέπει στους προγραμματιστές να γράφουν, να δοκιμάζουν και να διορθώνουν σενάρια απευθείας εντός της πλατφόρμας. Το OpenAI έδειξε τη χρησιμότητά του κατά τη διάρκεια μιας ζωντανής εκδήλωσης χρησιμοποιώντας Python για τη δημιουργία και τη βελτίωση των οπτικοποιήσεων δεδομένων. Το OpenAI περιέγραψε τη λειτουργία ως “μειώνοντας την τριβή μεταξύ δημιουργίας ιδεών και υλοποίησης”.
Στις 9 Δεκεμβρίου, η OpenAI παρουσίασε επίσημα το Sora, το προηγμένο εργαλείο AI για τη δημιουργία βίντεο από μηνύματα κειμένου, σηματοδοτώντας μια νέα εποχή για δημιουργική τεχνητή νοημοσύνη. Ενσωματωμένο σε λογαριασμούς ChatGPT επί πληρωμή, το Sora επιτρέπει στους χρήστες να κάνουν κινούμενες εικόνες, να επεκτείνουν υπάρχοντα βίντεο και να συγχωνεύουν σκηνές σε συνεκτικές αφηγήσεις.
Το Reinforcement Fine-Tuning κυκλοφόρησε στις 7 Δεκεμβρίου ως ένα νέο πλαίσιο που έχει σχεδιαστεί για να επιτρέπει την προσαρμογή των μοντέλων τεχνητής νοημοσύνης για συγκεκριμένες εφαρμογές του κλάδου. Σε αντίθεση με την παραδοσιακή εποπτευόμενη μάθηση, η οποία εστιάζει στην αναπαραγωγή των επιθυμητών αποτελεσμάτων
Τον Δεκέμβριο. 5, Το OpenAI αποκάλυψε το ChatGPT Pro, ένα νέο επίπεδο συνδρομής premium με τιμή 200 $ το μήνα, που απευθύνεται σε επαγγελματίες και επιχειρήσεις που αναζητούν προηγμένες δυνατότητες AI για ροές εργασίας υψηλής ζήτησης.