Μια κοινοπραξία πανεπιστημίων και ερευνητών του Amazon έχει αποκαλύψει μια νέα αρχιτεκτονική AI, τον ενεργειακό μετασχηματιστή (EBT). Έχει σχεδιαστεί για να εξοπλίζει μοντέλα με πιο ανθρώπινες αναλυτικές δεξιότητες. Η προσέγγιση στοχεύει να ενσταλάξει το”System 2 Thinking”στο AI, το οποίο συχνά βασίζεται σε γρήγορη, διαισθητική αναγνώριση προτύπων. Ξεκινά με μια τυχαία λύση και το βελτιώνει σταδιακά για να ελαχιστοποιήσει μια υπολογισμένη βαθμολογία”ενέργειας”. Ενώ τα πρώτα αποτελέσματα υποδεικνύουν ότι τα EBTs θα μπορούσαν να είναι πιο αποδοτικά από τα δεδομένα, η μέθοδος απαιτεί περισσότερο υπολογισμό.
Το βασικό ερώτημα του έργου, όπως θέτουν οι ερευνητές, είναι:”Είναι δυνατόν να γενικεύσουν αυτές τις προσεγγίσεις σκέψης του συστήματος 2 και να αναπτύξουν μοντέλα που μαθαίνουν να σκέφτονται αποκλειστικά από την ασφάλιστη μάθηση; Αυτό αμφισβητεί το σημερινό πρότυπο της ανάπτυξης AI. Το έργο είναι διαθέσιμο σε ένα project
Src=”Δεδομένα: εικόνα/svg+xml; nitro-empty-id=mty0mdoxmty4-1, base64, phn2zyb2awv3qm94psiwidagmti4mca0mj Eiihdpzhropsixmjgwiibozwlnahq9ijqymsigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>>
Από τη διαίσθηση στην ανάλυση: Η αναζήτηση για το «Σύστημα 2» AI
Η αρχιτεκτονική EBT αντιπροσωπεύει μια θεμελιώδη μετατόπιση μακριά από το κυρίαρχο πρότυπο AI. Τα περισσότερα τρέχοντα μοντέλα, συμπεριλαμβανομένων των τυποποιημένων μετασχηματιστών, το Excel στο what nobel laureate daniel kahneman που ονομάζεται”ΣΥΣΤΗΜΑ 1 ΣΚΟΠΟΣ. Αναγνωρίζουν τις εικόνες σχεδόν αμέσως. Το πλαίσιο EBT είναι μια άμεση προσπάθεια οικοδόμησης αυτής της βαθύτερης γνωστικής διαδικασίας απευθείας στην αρχιτεκτονική του μοντέλου. Ένας τυποποιημένος μετασχηματιστής λαμβάνει μια είσοδο και παράγει μια έξοδο σε ένα ενιαίο, ντετερμινιστικό pass. Αντίθετα, ένα EBT μαθαίνει ένα πολύπλοκο, υψηλό διαστασιακό”ενεργειακό τοπίο”για όλες τις πιθανές προβλέψεις που σχετίζονται με ένα δεδομένο πλαίσιο. Στη συνέχεια, χρησιμοποιεί τις αρχές της κλίσης της κλίσης για να βελτιώσει την εικασία αυτή, ουσιαστικά”περπατάει”προς τα κάτω στο τοπίο που έμαθε, μέχρι να εγκατασταθεί στο χαμηλότερο δυνατό σημείο ή στην”Energy Valley”. Αυτή η επαναληπτική διαδικασία βελτίωσης είναι ο πυρήνας του μηχανισμού”σκέψης”του EBT. Επιτρέπει στο μοντέλο να διερευνήσει ένα χώρο πιθανών λύσεων και όχι να κλειδώνεται σε μία μονοπάτι. Η πρώτη είναι η δυναμική κατανομή υπολογισμού. Για ένα απλό πρόβλημα, το μοντέλο μπορεί να βρει το ελάχιστο ενέργεια σε λίγα μόνο βήματα. Για ένα πολύπλοκο, μπορεί να πάρει πολλά περισσότερα βήματα, να δαπανήσει αποτελεσματικά περισσότερο”σκέψη”στο πρόβλημα.
Η δεύτερη όψη είναι η ικανότητα να μοντελοποιεί την αβεβαιότητα. Ένα ομαλό ενεργειακό τοπίο με ένα σαφές ελάχιστο δείχνει υψηλή βεβαιότητα. Ένα τραχύ τοπίο με πολλές τοπικές κοιλάδες υποδηλώνει ότι το μοντέλο είναι αβέβαιο, καθώς υπάρχουν πολλαπλές εύλογες απαντήσεις. Αυτό παρέχει μια πιο ξεχωριστή κατανόηση της εμπιστοσύνης του μοντέλου. Η τελική ενεργειακή βαθμολογία μιας πρόβλεψης χρησιμεύει ως ενσωματωμένος έλεγχος ποιότητας. Μια χαμηλή βαθμολογία δείχνει μια υψηλής ποιότητας, επαληθευμένη απάντηση, ενώ μια υψηλή βαθμολογία σηματοδοτεί μια φτωχή, όλα χωρίς να χρειάζεται ένα ξεχωριστό μοντέλο επαληθευτή. Μετακινείται πέρα από την απλή παραγωγή σχεδίων σε μια διαδικασία ενεργού, επαναληπτικής επίλυσης προβλημάτων, σηματοδοτώντας ένα σημαντικό εννοιολογικό βήμα στην αναζήτηση για πιο ικανή τεχνητή νοημοσύνη. Ενώ ένας τυποποιημένος μετασχηματιστής πρέπει να μάθει την άμεση διαδρομή προς μια απάντηση, ένα EBT μαθαίνει να βαθμολογεί την «ορθότητα» οποιασδήποτε δεδομένης απάντησης-μια απλούστερη εργασία που φαίνεται να γενικεύεται πιο αποτελεσματικά. Το χαρτί τους αναφέρει ότι η EBTS κλιμακώνεται πιο αποτελεσματικά από την βασική γραμμή του Advanced Transformer ++, εμφανίζοντας έως και 35% υψηλότερο ρυθμό κλιμάκωσης σε σχέση με τα δεδομένα. Υποδεικνύει ότι σε κλίμακα, ένα EBT θα μπορούσε να επιτύχει την ίδια απόδοση με έναν τυπικό μετασχηματιστή ενώ εκπαιδεύει σε σημαντικά λιγότερα δεδομένα. Σε μια εποχή όπου η βιομηχανία πλησιάζει τα όρια των υψηλής ποιότητας δεδομένων κατάρτισης που διατίθενται στον ιστό, η ανάπτυξη περισσότερων αρχιτεκτονικών που είναι αποδοτικές από δεδομένα είναι ένας κρίσιμος στρατηγικός στόχος για τη συνέχιση της προόδου του ΑΙ.
Πρώτον, το μοντέλο μπορεί να εκτελέσει περισσότερα επαναληπτικά βήματα βελτίωσης σε μια ενιαία πρόβλεψη, αφιερώνοντας αποτελεσματικά περισσότερο τον υπολογισμό σε ένα δύσκολο πρόβλημα. Δεύτερον, μπορεί να δημιουργήσει αρκετές υποψήφιες απαντήσεις και να χρησιμοποιήσει την εσωτερική του ενεργειακή λειτουργία για να αυτοκολληθεί και να επιλέξει εκείνη με τη χαμηλότερη ενέργεια, υποδεικνύοντας την υψηλότερη συμβατότητα. Αυτή η ώθηση απόδοσης είναι πιο έντονη για τα καθήκοντα εκτός διανομής (OOD)-προβλήματα που διαφέρουν από τα δεδομένα εκπαίδευσης. Με το”Thinking”περισσότερο σε συμπέρασμα, η EBTS βελτίωσε την απόδοση της γλωσσικής εργασίας κατά 29%. Αυτό υποδηλώνει ότι η επαναληπτική διαδικασία τους επιτρέπει να αιτιολογούν πιο δυνατά σε νέες καταστάσεις όπου τα τυποποιημένα μοντέλα θα μπορούσαν να βασίζονται σε λανθασμένη αντιστοίχιση προτύπων. Η κατάρτιση αυτών των μοντέλων απαιτεί επί του παρόντος μεταξύ 3,3 και 6,6 φορές περισσότερες λειτουργίες κυμαινόμενου σημείου (FLOPS) από τους τυποποιημένους μετασχηματιστές. Αυτή η ουσιαστική επιβάρυνση δεν είναι μόνο μια θεωρητική ανησυχία. Θέτει ένα σημαντικό εμπόδιο στην υιοθεσία, ενδεχομένως περιορίζοντας την έρευνα και την ανάπτυξη του EBT μόνο στα πιο καλά χρηματοδοτούμενα ακαδημαϊκά εργαστήρια και σε μεγάλες τεχνολογικές εταιρείες με τεράστιους υπολογιστικούς πόρους. Σε αντίθεση με το ενιαίο πέρασμα ενός προθεσμιακού μοντέλου, κάθε βήμα βελτίωσης σε ένα EBT περιλαμβάνει σύνθετους υπολογισμούς κλίσης για τον προσδιορισμό της κατεύθυνσης της επόμενης «σκέψης». Αυτή η διαδικασία, η οποία απαιτεί τον υπολογισμό των παραγώγων δεύτερης τάξης (ή αποτελεσματικές προσεγγίσεις όπως τα προϊόντα Hessian-Vector), είναι θεμελιωδώς πιο εντατική. Η ομάδα αναγνωρίζει ότι πρόκειται για βασικό τομέα για τη μελλοντική εργασία βελτιστοποίησης, καθώς η καθιστώντας αυτή η διαδικασία «σκέψης» φθηνότερη είναι απαραίτητη για την πρακτική ανάπτυξη. Επιπλέον, τα αρχικά πειράματα διεξήχθησαν σε μοντέλα με έως και 800 εκατομμύρια παραμέτρους. Αυτό είναι ένα κλάσμα του μεγέθους των σημερινών μεγαλύτερων συστημάτων AI, τα οποία συχνά υπερβαίνουν εκατοντάδες δισεκατομμύρια παραμέτρους. Η κλιμάκωση μιας αρχιτεκτονικής με τάξεις μεγέθους είναι γνωστή, συχνά αποκαλύπτοντας απρόβλεπτες προκλήσεις όπως αστάθειες κατάρτισης ή ενεργειακά τοπία που γίνονται πολύ περίπλοκα για την αποτελεσματική πλοήγηση. Ως εκ τούτου, παραμένει ένα ανοιχτό ερώτημα εάν τα οφέλη απόδοσης που παρατηρούνται σε αυτή τη μικρότερη κλίμακα θα κρατήσουν ή ακόμα και θα ενισχυθούν, όταν εφαρμόζονται σε μοντέλα συνόρων. Η απάντηση πιθανότατα θα εξαρτηθεί από την εφαρμογή. Για επιστημονικά ή αναλυτικά καθήκοντα υψηλού σταδίου, η τιμή μπορεί να δικαιολογηθεί, αλλά για τη χρήση γενικής χρήσης, η ανάλυση κόστους-οφέλους παραμένει ένα κρίσιμο και ανεπίλυτο ζήτημα. Αρκετές εταιρείες αντιμετωπίζουν αυτή την πρόκληση από διαφορετικές γωνίες, υπογραμμίζοντας την κρίσιμη ανάγκη να μειωθεί το τεράστιο κόστος που συνδέεται με τις μεγάλες κλίμακες AI. Αυτές οι ανταγωνιστικές μεθόδους αντιμετωπίζουν την αποτελεσματικότητα σε διαφορετικά στάδια. Το Compactifai της Multiverse συμπιέζει το ίδιο το στατικό μοντέλο. Το NAMMS της Sakana βελτιστοποιεί τη δυναμική προσωρινή μνήμη KV κατά τη διάρκεια της συμπερίληψης. Το Bamba της IBM χρησιμοποιεί μια υβριδική αρχιτεκτονική για να επιταχύνει την επεξεργασία αλληλουχίας. Αντί να βελτιστοποιούν ένα τελικό μοντέλο ή τη μνήμη του, τα EBTs ενσωματώνουν μια διαδικασία”σκέψης”απευθείας στον τρόπο με τον οποίο σχηματίζεται κάθε πρόβλεψη, με στόχο την καλύτερη γενίκευση και λογική από το έδαφος. Ο Διευθύνων Σύμβουλος του, Enrique Lizaso Olmos, σημείωσε:”Η επικρατούσα σοφία είναι ότι η συρρίκνωση του LLMS έρχεται με κόστος. Το Multiverse αλλάζει αυτό”. Εν τω μεταξύ, το μοντέλο BAMBA του IBM στόχει την ταχύτητα συμπερασμάτων. Άλλες καινοτομίες, όπως το σύστημα βελτιστοποίησης της μνήμης της Sakana AI, στοχεύουν επίσης να κάνουν τους μετασχηματιστές πιο αποτελεσματικούς. Οι ερευνητές της Sakana διαπίστωσαν ότι”η εξέλιξη ξεπερνά την μη διαφοροποίηση των δραστηριοτήτων διαχείρισης μνήμης, οι οποίες περιλαμβάνουν δυαδικές”θυμούνται”ή”ξεχάστηκαν”αποτελέσματα”. Καθώς τα μοντέλα αναπτύσσονται, η βιομηχανία αγωνίζεται για να βρει βιώσιμους τρόπους για να εκπαιδεύσει και να αναπτύξει. Οι ερευνητές της EBT πιστεύουν ότι το έργο τους αποτελεί βασικό μέρος αυτού του μέλλοντος, καταλήγοντας στο συμπέρασμα ότι”οι EBTs είναι ένα πολλά υποσχόμενο νέο πρότυπο για την κλιμάκωση τόσο των δυνατοτήτων μάθησης όσο και της σκέψης των μοντέλων”.