Ερευνητές στο Tencent AI Lab αποκάλυψαν ένα νέο πλαίσιο τεχνητής νοημοσύνης που έχει σχεδιαστεί για να σπάει τα όρια ταχύτητας των τρεχόντων μοντέλων μεγάλων γλωσσών.

Αναλυτικά σε μια εργασία που δημοσιεύτηκε στο διαδίκτυο αυτήν την εβδομάδα, το σύστημα ονομάζεται CALM, για Μοντέλα Συνεχούς Αυτοπαλίνδρομης Γλώσσας. Αμφισβητεί ευθέως την αργή, διακριτική προς διακριτική διαδικασία που τροφοδοτεί τις περισσότερες παραγωγικές τεχνητές νοημοσύνης σήμερα.

Αντί να προβλέπει ένα μικρό κομμάτι λέξης τη φορά, το CALM μαθαίνει να προβλέπει ένα μεμονωμένο διάνυσμα που αντιπροσωπεύει ένα ολόκληρο κομμάτι κειμένου. Αυτή η μέθοδος θα μπορούσε να καταστήσει τη δημιουργία τεχνητής νοημοσύνης πολύ πιο γρήγορη και πιο αποτελεσματική, ανοίγοντας μια νέα διαδρομή για την κλιμάκωση μοντέλων.

The height=”2><80">height=”2. Tyranny of the Token: Autoregressive Bottleneck της AI

Μια θεμελιώδης αδυναμία των σύγχρονων LLMs είναι η εξάρτησή τους από την αυτοπαλινδρομική παραγωγή διακριτικών προς διακριτική. Αυτή η διαδοχική εξάρτηση είναι το μοναδικό μεγαλύτερο σημείο συμφόρησης που περιορίζει την ταχύτητα και την επεκτασιμότητα της τεχνητής νοημοσύνης.

Η δημιουργία ενός μεγάλου άρθρου απαιτεί χιλιάδες διαδοχικά βήματα πρόβλεψης, καθιστώντας τη διαδικασία υπολογιστικά δαπανηρή και αργή. Αυτό δεν είναι απλώς ένα ακαδημαϊκό πρόβλημα. Αυτός είναι ο λόγος για τον οποίο η χρήση ισχυρών μοντέλων είναι δαπανηρή και η παραγωγή μακράς μορφής σε πραγματικό χρόνο παραμένει πρόκληση.

Αυτό το πρόβλημα αποτελεσματικότητας έχει γίνει κεντρικό πεδίο μάχης για τους προγραμματιστές τεχνητής νοημοσύνης. Όπως σημείωσε προηγουμένως η Google Research, “καθώς αναπτύσσουμε αυτά τα μοντέλα σε περισσότερους χρήστες, το να τα κάνουμε πιο γρήγορα και λιγότερο δαπανηρά χωρίς να θυσιάσουμε την ποιότητα είναι μια κρίσιμη πρόκληση.”

Ο κλάδος έχει εξερευνήσει πολυάριθμες λύσεις, από τους κερδοσκοπικούς καταρράκτες της Google έως τις νέες τεχνικές συμπίεσης. Τώρα, το έργο του Tencent προτείνει μια πιο ριζική λύση.

Η εργασία προτείνει ένα προσχέδιο για μια νέα κατηγορία εξαιρετικά αποδοτικών γλωσσικών μοντέλων και για τη συμφόρηση που προκαλείται από διακριτικά για την ταχύτητα.

Ο στόχος είναι να αλλάξει ριζικά η μονάδα πρόβλεψης από ένα ενιαίο διακριτικό χαμηλής πληροφόρησης σε κάτι πολύ πιο πλούσιο.

Αντί για Tokens

Σε μια άμεση πρόκληση στο status quo της γενετικής τεχνητής νοημοσύνης, το CALM επαναπλαισιώνει πλήρως την εργασία πρόβλεψης. Οι ερευνητές προτείνουν έναν νέο άξονα κλιμάκωσης για τα LLM.

“Υποστηρίζουμε ότι η υπέρβαση αυτού του στενώματος απαιτεί έναν νέο άξονα σχεδίασης για την κλιμάκωση LLM: αύξηση του σημασιολογικού εύρους ζώνης κάθε γενετικού βήματος”, γράφουν στην εργασία.

Με την αύξηση αυτής της”σημασιολογικής διαδικασίας”σε ένα ενιαίο μοντέλο μπορεί να αυξήσει τις πληροφορίες. Το CALM το πετυχαίνει μέσω μιας καινοτόμου διαδικασίας δύο σταδίων που λειτουργεί σε έναν συνεχή και όχι σε διακριτό χώρο.

Στην καρδιά του σχεδιασμού του CALM βρίσκεται ένας αυτόματος κωδικοποιητής υψηλής πιστότητας. Αυτό το συστατικό μαθαίνει να συμπιέζει ένα κομμάτι K διακριτικών – για παράδειγμα, τέσσερα tokens – σε ένα ενιαίο, πυκνό συνεχές διάνυσμα.

Κυρίως, μπορεί να ανακατασκευάσει τα αρχικά διακριτικά από αυτό το διάνυσμα με ακρίβεια άνω του 99,9%. Στη συνέχεια, ένα ξεχωριστό μοντέλο γλώσσας εκτελεί αυτοπαλινδρομική πρόβλεψη σε αυτόν τον νέο διανυσματικό χώρο.

Σύμφωνα με την επίσημη τεκμηρίωση του έργου,”αντί να προβλέπει ένα διακριτό διακριτικό τη φορά, το KALM αντιπροσωπεύει ένα μόνο συνεχές διάνυσμα που μαθαίνει να το κάνει να το κάνει.”διακριτικά.”

Αυτό μειώνει τον αριθμό των βημάτων παραγωγής κατά ένα συντελεστή Κ, οδηγώντας σε σημαντικά κέρδη απόδοσης.

The Likelihood-Free Toolkit: How CALM Learns and Measures Success

Η μετάβαση από διακριτά διακριτικά δεν μπορεί πλέον να εισαγάγει τα διακριτά μοντέλα σε μια συνεχή προκλήσεις για την ανάπτυξη ενός διανύσματος: πάνω από όλα τα πιθανά αποτελέσματα χρησιμοποιώντας ένα τυπικό επίπεδο softmax.

Αυτό καθιστά τις παραδοσιακές μεθόδους εκπαίδευσης και αξιολόγησης, οι οποίες βασίζονται στον υπολογισμό των πιθανοτήτων, μη εφαρμόσιμες. Για να το λύσει αυτό, η ομάδα της Tencent ανέπτυξε ένα ολοκληρωμένο πλαίσιο χωρίς πιθανότητες.

Για την εκπαίδευση, το CALM χρησιμοποιεί μια μέθοδο Εκπαίδευσης με βάση την Ενέργεια, η οποία χρησιμοποιεί έναν αυστηρά σωστό κανόνα βαθμολόγησης για να καθοδηγήσει το μοντέλο χωρίς να χρειάζεται να υπολογιστούν πιθανότητες.

Για αξιολόγηση, οι ερευνητές εισήγαγαν μια νέα μέτρηση που ονομάζεται BrierLM. Απομακρυνόμενοι από τις παραδοσιακές μετρήσεις όπως η αμηχανία, το BrierLM προέρχεται από τη βαθμολογία Brier, ένα εργαλείο από πιθανοτικές προβλέψεις.

Επιτρέπει μια δίκαιη σύγκριση με βάση το δείγμα των δυνατοτήτων του μοντέλου, ελέγχοντας πόσο καλά ευθυγραμμίζονται οι προβλέψεις με την πραγματικότητα, μια μέθοδος που ταιριάζει απόλυτα σε μοντέλα όπου οι πιθανότητες είναι δυσεπίλυτες.

Race for Efficiency

Ο πρακτικός αντίκτυπος αυτής της νέας αρχιτεκτονικής είναι μια ανώτερη αντιστάθμιση απόδοσης-υπολογισμού.

Το μοντέλο CALM μειώνει τις υπολογιστικές απαιτήσεις εκπαίδευσης κατά 44% και τα συμπεράσματα κατά 33% σε σύγκριση με μια ισχυρή γραμμή βάσης. Αυτό αποδεικνύει ότι η κλιμάκωση του σημασιολογικού εύρους ζώνης κάθε βήματος είναι ένας ισχυρός νέος μοχλός για τη βελτίωση της υπολογιστικής απόδοσης.

Η εργασία τοποθετεί το CALM ως σημαντικό ανταγωνιστή στον αγώνα σε όλο τον κλάδο για την κατασκευή ταχύτερης, φθηνότερης και πιο προσιτής τεχνητής νοημοσύνης.

Η Google έχει αντιμετωπίσει τις τεχνολογίες τεχνητής νοημοσύνης και προδιαγραφές ταχύτητας, όπως η AI. Μάθηση. Άλλες νεοφυείς επιχειρήσεις, όπως η Inception, εξερευνούν εντελώς διαφορετικές αρχιτεκτονικές όπως LLM που βασίζονται στη διάχυση στο “Mercury Coder” για να ξεφύγουν από τη”δομική συμφόρηση”της αυτόματης παλινδρόμησης.

Μαζί με αυτές τις προσεγγίσεις υψηλής μετατόπισης. Η βιομηχανία κινείται από την καθαρή εστίαση στην κλίμακα σε μια πιο βιώσιμη επιδίωξη πιο έξυπνης, πιο οικονομικά βιώσιμης τεχνητής νοημοσύνης. Η προσέγγιση που βασίζεται σε διανύσματα του CALM προσφέρει μια νέα πορεία προς τα εμπρός σε αυτό το μέτωπο.

Categories: IT Info