Η αρχιτεκτονική του μετασχηματιστή που τροφοδοτεί πολλά από τα πιο δυνατά μεγάλα γλωσσικά μοντέλα του σήμερα αντιμετωπίζει μια καλά τεκμηριωμένη πρόκληση: οι υπολογιστικές απαιτήσεις του αναπτύσσονται τετραπλές καθώς οι ακολουθίες εισροών γίνονται περισσότερο. href=”https://research.ibm.com/blog/bamba-ssm-transformer-model”target=”_ blank”> bamba-9b-v2 . Αυτό το νεοσύστατο μοντέλο ανοιχτού κώδικα χρησιμοποιεί ένα υβριδικό σχέδιο, συνδυάζοντας εξαρτήματα μετασχηματιστή με την αρχιτεκτονική μοντέλου MAMBA2 State-Space (SSM). href=”https://arxiv.org/abs/1706.03762″target=”_ blank”>”Η προσοχή είναι το μόνο που χρειάζεστε”, οφείλει μεγάλο μέρος της επιτυχίας τους στον μηχανισμό αυτοελέγχου. src=”https://winbuzzer.com/wp-content/uploads/2024/12/ai-artificial-intelligence-abstract.webp”>

Αυτό επιτρέπει στο μοντέλο να αξιολογήσει τη συνάφεια όλων των μάρκες σε μια σειρά ταυτόχρονα. Ωστόσο, αυτή η σύγκριση με όλα τα αποτελέσματα της σύγκρισης σε υπολογιστικές και μνήμης, ιδιαίτερα για τις καταστάσεις προσοχής KV που αποθηκεύει την προσοχή, που κλιμακώνονται με αυξημένο μήκος αλληλουχίας. Αυτό το”τετραγωνικό εμπόδιο”καθιστά την επεξεργασία πολύ μακρά πλαίσια όλο και πιο αργή και δαπανηρή, ένα ζήτημα που επισημάνθηκε στις συζητήσεις της βιομηχανίας νωρίτερα αυτό το έτος σχετικά με τη βιωσιμότητα της κλιμάκωσης των μοντέλων AI. href=”https://en.wikipedia.org/wiki/mamba_(deep_learning_architecture)”target=”_ blank”> state-space μοντέλα (ssms) , Target=”_ blank”> προσαρμοσμένο για βαθιά μάθηση , για να μετριάσει τις αναποτελεσματικότητες του μετασχηματιστή. Η συγκεκριμένη παραλλαγή που χρησιμοποιείται είναι mamba2, που αναπτύχθηκε από τον Albert Gu (CMU) και το Tri Dao (Princeton) . Ο γραμμικός χρόνος κατά τη διάρκεια της εκπαίδευσης (μέσω μιας συνελικτικής άποψης) και ο σταθερός χρόνος ανά διακριτικό κατά τη διάρκεια της συμπερίληψης (μέσω μιας επαναλαμβανόμενης προβολής). Ο Ankit Gupta, ένας ερευνητής της IBM που εμπλέκεται στο θεμελιώδες έργο SSM, σημείωσε τον παραδοσιακό τους ρόλο: «Είναι το ψωμί και το βούτυρο της ηλεκτρολογικής μηχανικής-η επεξεργασία σήματος, η ρομποτική και η θεωρία ελέγχου». Ο στόχος είναι να αξιοποιηθούν οι SSMs για την αποτελεσματική διαχείριση εξαρτήσεων μεγάλης εμβέλειας, ενώ παράλληλα διατηρούνται η προσοχή για τις ισχυρές δυνατότητες κατανόησης του συμφραζόμενου. Η έκδοση (μείωση του μεγέθους από 18GB έως 9GB), υποσχόμαστε. Το μοντέλο, εκπαιδευμένο σε 3 τρισεκατομμύρια μάρκες, σύμφωνα με πληροφορίες, ταιριάζει με το Meta’s llama 3.1 8b σε βασικά σημεία benchmarks, παρά το LLAMA 3.1 της κατάρτισης (15T+ Tokens). Η Bamba τρέχει σήμερα το συμπέρασμα 2 έως 2,5 φορές ταχύτερα από τους μετασχηματιστές παρόμοιου μεγέθους, αποδίδοντας αυτό κυρίως σε μειωμένες απαιτήσεις της προσωρινής μνήμης KV. Ο Raghu Ganti της IBM, που οδηγεί το έργο Bamba, υπογράμμισε:”Τα πάντα επιστρέφουν στη μείωση της προσωρινής μνήμης KV… περισσότερη απόδοση, χαμηλότερη καθυστέρηση, μακρύτερο μήκος περιβάλλοντος.”

IBM and its collaborators are releasing Bamba under an open model, providing access to model weights, training details, and code via the Hugging Face Bamba collection and the project’s github repository

V2 Περιλάμβανε διάφορα στάδια, ξεκινώντας από το αρχικό 2T Token Bamba V1 (που κυκλοφόρησε γύρω από τα Χριστούγεννα 2024). Πρώτον, η κατάρτιση επεκτάθηκε σε 2,5T Tokens χρησιμοποιώντας το olmo mix DataSet. Στη συνέχεια, δύο ξεχωριστά μοντέλα εκπαιδεύτηκαν έως και 3T Tokens χρησιμοποιώντας ένα προσαρμοσμένο μείγμα, συμπεριλαμβανομένων των δεδομένων Nemotron-CC, το καθένα με διαφορετικό χρονοδιάγραμμα μαθησιακών ρυθμών (σταθερή έναντι αποσύνθεσης συνημίτονου). Τέλος, και τα δύο μοντέλα 3T”ανόπτηση”σε 100B υψηλής ποιότητας μάρκες προτού συγχωνευθούν χρησιμοποιώντας το σταθμό του Mergekit. Η ομάδα συνεργάζεται ενεργά με το community vllm Σημειώθηκε,”Τα SSMs είναι δύσκολο να υποστηριχθούν, επειδή χρειάζεστε διαχείριση κατά παραγγελία.”Οι μελλοντικές βελτιώσεις στοχεύουν σε τεμαχισμό και ταχύτερους πυρήνες αποκωδικοποίησης, ενδεχομένως ενισχύοντας το πλεονέκτημα της ταχύτητας του Bamba σε 4-5x σε σχέση με τους παραδοσιακούς μετασχηματιστές. Η ομάδα προσκαλεί την κοινότητα ανοιχτού κώδικα να συνεισφέρει, ιδίως στη δοκιμή της κλιμάκωσης μεγάλου πλαισίου και στη βελτίωση της μαθηματικής απόδοσης. Η IBM επιβεβαίωσε ότι τα βασικά χαρακτηριστικά από το έργο Bamba θα ενσωματωθούν στα επερχόμενα IBM Granite 4.0 Enterprise Models, που θα κυκλοφορήσουν τους επόμενους μήνες. Αυτή η προγραμματισμένη ολοκλήρωση υπογραμμίζει το αυξανόμενο ενδιαφέρον του κλάδου στις υβριδικές αρχιτεκτονικές AI ως πρακτική πορεία προς τα πιο αποτελεσματικά και κλιμακούμενα γλωσσικά μοντέλα ικανά να χειριστούν τις όλο και πιο μακριές απαιτήσεις πλαισίου των σύγχρονων εφαρμογών AI.

Categories: IT Info