Το Meta έχει κυκλοφορήσει το Llama 4 Scout και το Llama 4 Maverick, δύο ανοικτά συνορύσματα μεγάλα γλωσσικά μοντέλα που εισάγουν σημαντικές αρχιτεκτονικές αλλαγές ενώ επεκτείνουν την παρουσία της εταιρείας σε όλη τη χρήση των καταναλωτικών εφαρμογών και των πλατφορμών cloud. Η εταιρεία έχει επίσης αποκαλύψει ένα μοντέλο καθηγητή 2 τριμήνων-παραμέτρων-424″Behemoth-κατά τη διάρκεια της κατάρτισης, και ένα μοντέλο πολυτροπικής όρασης, Llama 4-V, να ακολουθήσει αργότερα. Src=”Δεδομένα: εικόνα/svg+xml; nitro-empty-id=mtcwmzoxntk0-1, base64, phn2zyb2awv3qm94psiwidagmtaynca4nz Qiihdpzhropsixmdi0iibozwlnahq9ijg3ncigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>>

Ενώ ο Scout είναι χτισμένος για να χωρέσει σε μία μόνο GPU H100 μέσω INT4 Quantization, προσφέρει ακόμα ένα καλύτερο μήκος πλαισίου 10 εκατομμυρίων σε κατηγορία, ένα πέμπτο άλμα σε σχέση με προηγούμενα μοντέλα. Διαθέτει 17 δισεκατομμύρια ενεργές παράμετροι με 16 εμπειρογνώμονες και 109 δισεκατομμύρια συνολικές παραμέτρους. Και τα δύο μοντέλα επεξεργάζονται εικόνες και κείμενο από κοινού μέσω της πρώιμης σύντηξης-μιας μεθόδου όπου και οι δύο τύποι συμβόλων είναι ενσωματωμένοι στο ίδιο μοντέλο σπονδυλικής στήλης κατά τη διάρκεια της προαγητικής. Αυτή η οπτική γείωση επιτρέπει δυνατότητες όπως ο εντοπισμός αντικειμένων και η βελτιωμένη ευθυγράμμιση μεταξύ περιεχομένου εικόνας και προτροπής γλωσσών. Σύμφωνα με τον Meta, το”Llama 4 Scout είναι το καλύτερο στην κατηγορία της γείωσης εικόνας, ικανός να ευθυγραμμίζει τις προτροπές των χρηστών με τις σχετικές οπτικές έννοιες και τις απαντήσεις του μοντέλου αγκύρωσης στις περιοχές της εικόνας.”

Ο πολυτροπικός βοηθός και τα εσωτερικά σημεία αναφοράς αντικατοπτρίζουν αυτόν τον ισχυρισμό. Στις εργασίες οπτικής συλλογιστικής, επιτυγχάνει 90,0 στο Chartqa και 94,4 στο DOCVQA, ξεπερνώντας το GPT-4O και το Gemini 2.0 Flash. Καταγράφει επίσης 73,7 στο Mathvista και 80,5 στο MMLU Pro, υποδεικνύοντας ισχυρές δυνατότητες γενικής συλλογιστικής.

Στις εργασίες προγραμματισμού, ο Maverick βαθμολογεί 43,4 στο LiveCodeBench, τοποθετώντας το μπροστά από το GPT-4O και το Gemini 2.0 Flash και ακριβώς κάτω από το Deepseek v3.1. Η βοηθός της απόδοσης ενισχύεται με βαθμολογία ELO 1417 στη Lmarena. Για την αποδοτικότητα του κόστους, οι μετα-εκτιμήσεις του κόστους των συμπερασμάτων μεταξύ $ 0,19-$ 0,49 ανά εκατομμύριο μάρκες κάτω από ένα μίγμα εισόδου-εισόδου 3: 1. Βαθμολογεί 88,8 στο Chartqa, που ταιριάζει με το Maverick με 94,4 στο DocVQA και φτάνει τα 74,3 στο MMLU Pro. Αυτά τα αποτελέσματα υπογραμμίζουν την αποτελεσματικότητά του σε οπτικά και συλλογιστικά σημεία αναφοράς, ιδιαίτερα για ελαφρές ή μονοτολογικές αναπτύξεις.

Η ισοτιμία υψηλής βαθμολογίας με μεγαλύτερα μοντέλα σε εργασίες εικόνας σηματοδοτεί ισχυρές βελτιστοποιήσεις σχεδιασμού, ειδικά για περιπτώσεις χρήσης που απαιτούν πλούσια σε περιβάλλοντα πολυτροπική κατανόηση, αλλά λιγότερα γενικά έξοδα υποδομής. Src=”Δεδομένα: εικόνα/svg+xml; nitro-empty-id=mtcxndoxodq3-1, base64, phn2zyb2awv3qm94psiwidagmtaynca3mjuiiH dpzhropsixmdi0iibozwlnahq9ijcynsigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> Πηγή: Meta

llama 4 behemoth παραμένει μη κυκλοφορούσε, αλλά χρησίμευσε ως μοντέλο εκπαιδευτικών για την κωδικοποίηση του Maverick και του Scout. Με 288 δισεκατομμύρια ενεργές παραμέτρους και σχεδόν 2 τρισεκατομμύρια συνολικά, η απόδοσή του το τοποθετεί στο ανώτερο κλιμάκιο του τρέχοντος LLMS. Οι βαθμολογίες αναφοράς Meta αναφέρουν 95,0 σε Math-500, 82,2 στο MMLU Pro, 73,7 στο GPQA Diamond και 85,8 σε πολύγλωσσο MMLU.

Αυτές οι βαθμολογίες υποδεικνύουν ότι ο Behemoth ξεπερνά το Claude Sonnet 3.7, το Gemini 2.0 Pro και το GPT-4.5 σε καθήκοντα STEM και πολυγλωσσικών συλλογιστικών, ενισχύοντας το ρόλο του ως θεμέλιο για τα μικρότερα μοντέλα LLAMA 4. Src=”Δεδομένα: εικόνα/svg+xml; nitro-empty-id=mtcyntoxntgx-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1ndiiiH dpzhropsixmdi0iibozwlnahq9iju0miigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> Πηγή: Πηγή: Meta

Στρατηγική κατάρτισης και νέες αρχιτεκτονικές

LLAMA 4 Marks Η πρώτη χρήση των στρώσεων MOE που διασκορπίζονται με πυκνά στρώματα σε μοντέλα παραγωγής. Μόνο ένα μικρό κλάσμα των παραμέτρων ενεργοποιείται ανά διακριτικό, βελτιώνοντας την αποτελεσματικότητα χωρίς να επηρεάζει σημαντικά την ποιότητα. Κάθε διακριτικό Maverick δρομολογείται σε έναν από τους 128 εμπειρογνώμονες συν έναν κοινό εμπειρογνώμονα, με όλους τους εμπειρογνώμονες να φορτώνονται στη μνήμη, αλλά να ενεργοποιούνται επιλεκτικά κατά τη διάρκεια των συμπερασμάτων και βελτιώνουν επίσης ένα νέο σχέδιο κωδικοποίησης θέσης που ονομάζεται IROPE-Interleaved Rotary Embeddings-That Drops για σταθερούς tokensary tokens και βελτιώνει τη γενική θέση.”Ονομάζουμε αυτή την αρχιτεκτονική Irope, όπου« εγώ »αντιπροσωπεύει τα« διαστρεβλωμένα »στρώματα προσοχής, υπογραμμίζοντας τον μακροπρόθεσμο στόχο της υποστήριξης του« άπειρου »μήκους περιβάλλοντος». Η εταιρεία χρησιμοποίησε την ακρίβεια FP8 για την κατάρτιση για να αυξήσει την απόδοση, επιτυγχάνοντας 390 TFLOPS ανά GPU κατά τη διάρκεια της προκαταρκτικής πρόληψης του Behemoth σε 32Κ GPU. Το METAP, ένα σύστημα για δυναμικά κλιμάκωση των ποσοστών αρχικοποίησης και εκμάθησης, χρησιμοποιήθηκε για τη γενίκευση του συντονισμού υπερπαραμετρίας σε διάφορα μεγέθη μοντέλων και διαμορφώσεις παρτίδας. Για την εκτόξευση, η Meta συνεργάστηκε με μεγάλους παρόχους σύννεφων για την επιτάχυνση της υιοθέτησης. Το AWS έχει ήδη προσθέσει Llama 4 Scout και Llama 4 Maverick σε Amazon Sagemaker Jumpstart Ταυτόχρονα, η Microsoft ξεκίνησε υποστήριξη μέσω του

Meta εισήγαγε επίσης ένα νέο πλαίσιο κόκκινου ομίλου που ονομάζεται δοκιμή επιθετικών πράκτορα κατσίκας. Αυτό το εργαλείο προσομοιώνει συνομιλίες πολλαπλών στροφών με αντιδραστικούς ηθοποιούς μεσαίας εξειδίκευσης, βοηθώντας την κάλυψη των δοκιμών να αυξήσει την κάλυψη των δοκιμών και να αποκαλύψει τα τρωτά σημεία πιο αποτελεσματικά. Η προκατάληψη παραμένει βασική ανησυχία. Σε δοκιμές για πολιτικά φορτισμένα θέματα, τα ποσοστά άρνησης στο LLAMA 4 έχουν μειωθεί σε κάτω από 2%-από 7% στο LLAMA 3.3. Οι άνισες ανταπόκριση των αντιδράσεων σε ιδεολογίες πέφτουν τώρα κάτω από το 1%. Η Meta λέει ότι εργάζεται για μοντέλα που μπορούν να αντιπροσωπεύουν διαφορετικές απόψεις χωρίς να επιβάλλουν μια στάση. Αυτές οι ενοποιήσεις προσφέρουν μια ευρεία δοκιμαστική ομάδα για την αξιολόγηση της απόδοσης στην άγρια ​​φύση, ενώ ταυτόχρονα εκθέτοντας τα μοντέλα σε τεράστιες ροές εισόδου χρήστη που θα μπορούσαν να ενημερώσουν τις μελλοντικές βελτιώσεις. Τα θέματα θα περιλαμβάνουν περαιτέρω κλιμάκωση του μοντέλου Behemoth και την εισαγωγή του LLAMA 4-V, ενός πλήρως πολυτροπικού μοντέλου γλώσσας που μπορεί να χειριστεί τόσο στατικές όσο και χρονικές οπτικές εισροές. Η ανακοίνωση υπογραμμίζει τον στόχο της Meta να παρέχει συστήματα που δεν είναι μόνο γλωσσικά ικανή, αλλά και ικανά για πολυτροπική λογική υψηλής ποιότητας. Τα μοντέλα LLAMA 4 δεν είναι πλήρως ανοικτού κώδικα, αλλά προσφέρουν ένα βαθμό διαφάνειας και ευελιξίας που βρίσκεται ανάμεσα στα καθαρά κλειστά συστήματα και τα μοντέλα που βασίζονται στην κοινότητα. Η ανάπτυξή τους σε δισεκατομμύρια τελικά σημεία-από τα API cloud έως τις εφαρμογές μηνυμάτων-θα μπορούσαν να διαμορφώσουν τις προσδοκίες προγραμματιστών γύρω από την κλίμακα, τις επιδόσεις και την υπεύθυνη χρήση τους επόμενους μήνες.