Η NVIDIA έχει αποκαλύψει το Rubin CPX, μια νέα κατηγορία GPU που κατασκευάστηκε για να επιταχύνει την «φάσης περιβάλλοντος» του συμπερασμάτων του συμπερασμού. Ανακοινώθηκε σήμερα, το τσιπ έχει σχεδιαστεί για να χειρίζεται τεράστιους φόρτους εργασίας με πάνω από ένα εκατομμύριο μάρκες, όπως η δημιουργία βίντεο και η ανάλυση κώδικα μεγάλης κλίμακας. Το Rubin CPX είναι μέρος της επερχόμενης πλατφόρμας Vera Rubin, η οποία ήταν για πρώτη φορά στο GTC 2025 και αναμένεται στα τέλη του 2026. Target=”_ Blank”> Move Δημιουργεί μια νέα, εξειδικευμένη κατηγορία υλικού που στοχεύει στη βελτίωση της κερδοφορίας των εργοστασίων AI. Επίσης, επεκτείνει την κυριαρχία της Nvidia έναντι των ανταγωνιστών, πολλοί από τους οποίους εξακολουθούν να αγωνίζονται να αναπτύξουν εναλλακτικές λύσεις γενικής χρήσης.
Αναλυτικό συμπέρασμα: Μια νέα αρχιτεκτονική για τον πιο σκληρό φόρτο εργασίας του AI
Η στρατηγική αντιμετωπίζει μια θεμελιώδη συμφόρηση στο σύγχρονο AI. Όπως εξηγεί η Nvidia, το συμπέρασμα δεν είναι ένα ενιαίο έργο, αλλά δύο ξεχωριστές φόρτο εργασίας με διαφορετικές απαιτήσεις.
Το πρώτο, το”περιβάλλον”ή”prefill”φάση, είναι η υπολογιστική, επεξεργάζεται τεράστιες εισόδους όπως ένα ολόκληρο αρχείο κώδικα ή βίντεο. Το δεύτερο, η φάση”γενιάς”ή”αποκωδικοποίησης”, είναι ένταση μνήμης, παράγοντας το διακριτικό εξόδου από το διακριτικό. Για εφαρμογές με τεράστιες εισροές, αυτό δημιουργεί ένα σημαντικό πρόβλημα απόδοσης. Σύμφωνα με τον Shar Narasimhan, διευθυντή προϊόντων της Nvidia, μια ενιαία GPU γενικού σκοπού αναγκάζεται να χειριστεί και τα δύο καθήκοντα όταν είναι πραγματικά βελτιστοποιημένη για ένα, δημιουργώντας έναν αρχιτεκτονικό συμβιβασμό που εμποδίζει την αποτελεσματικότητα. Η βασική ιδέα είναι να επεξεργαστούμε αυτές τις φάσεις ανεξάρτητα, επιτρέποντας τη στοχευμένη βελτιστοποίηση των πόρων υπολογισμού και μνήμης. href=”https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-efficicial-for-1m-token-context-workloads/”target=”_ blank”> βελτιώνει την απόδοση, μειώνει την καθυστέρηση και ενισχύει τη συνολική χρήση των πόρων. Η Nvidia έχει ήδη αποδείξει τη δύναμη της στρατηγικής στο λογισμικό, χρησιμοποιώντας το στρώμα ενορχήστρωσης Dynamo για να δρομολογήσει έξυπνα καθήκοντα σε όλο το υπάρχον υλικό Blackwell. href=”https://developer.nvidia.com/blog/nvidia-blackwell-ultra-sets-new-inference-records-in-mlperf-bebut/”target=”_ blank”> Ρύθμιση νέων αρχείων απόδοσης στα τελευταία αποτελέσματα συμπερασμάτων MLPerf . Το Rubin CPX αντιπροσωπεύει τώρα τη φυσική εκδήλωση αυτής της αποδεδειγμένης στρατηγικής, μετακινώντας από τη βελτιστοποίηση του λογισμικού στο σκοπό που κατασκευάζεται το πυρίτιο. Μετακινείται πέρα από την απλή προσθήκη περισσότερης πρώτης δύναμης σε ένα μόνο σχέδιο τσιπ και προς μια πιο εξελιγμένη βελτιστοποίηση πλήρους στοίβας ολόκληρης της ροής εργασίας του AI. T
Είναι ένα κεντρικό δόγμα του οράματος”AI Factory”της εταιρείας, όπου η μεγιστοποίηση της απόδοσης και η απόδοση της επένδυσης είναι ο τελικός στόχος. σχολαστικά σχεδιασμένο για τη φάση περιβάλλοντος. Παρέχει ένα τεράστιο 30 petaflops του υπολογισμού NVFP4 και είναι εξοπλισμένο με 128GB μνήμης GDDR7. Επιλέγοντας το GDDR7 πάνω από την πιο ακριβή μνήμη υψηλού εύρους ζώνης (HBM) που χρησιμοποιείται συνήθως σε GPU που επικεντρώνονται στην γενιά, η εταιρεία μπορεί να προσφέρει επαρκή απόδοση για την εργασία με τον υπολογισμό, βελτιώνοντας σημαντικά τη συνολική απόδοση του συστήματος. href=”https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-effective-for-1m-token-context-workloads/”target=”_ blank”> Τρεις φορές ταχύτερη επιτάχυνση προσοχής Καθώς ο μηχανισμός προσοχής είναι η υπολογιστική καρδιά των μοντέλων μετασχηματιστών. Η επιτάχυνση είναι απαραίτητη για την αποτελεσματική επεξεργασία των εξαιρετικά μεγάλων ακολουθιών δεδομένων που βρίσκονται σε εκατομμύρια συνθήκες. Η πλατφόρμα αναλυτικής εξυπηρέτησης υψηλής απόδοσης στεγάζεται σε ένα μόνο rack. Αυτή η διαμόρφωση προσφέρει ένα εντυπωσιακό 8 exaflops της συνολικής ισχύος NVFP4-μια αύξηση 7,5 φορές σε σχέση με τους ήδη τρομερά GB300 NVL72. Ολόκληρο το ράφι διασυνδέεται είτε με το Quantum-X800 Infiniband είτε με το Spectrum-X Ethernet και ενορχηστρώνεται από την πλατφόρμα λογισμικού Nvidia Dynamo. Η πλήρης πλατφόρμα αναμένεται να είναι διαθέσιμη στα τέλη του 2026. Ολόκληρη η βιομηχανία τεχνολογίας αγωνίζεται για να αναπτύξει ιδιόκτητους επιταχυντές AI, από τα τσιπς Trainium του Amazon έως τους μεταποιητές MTIA της Meta. Ωστόσο, πολλοί αγωνίστηκαν με την τεράστια δυσκολία του σχεδιασμού τσιπ.
Η Microsoft, για παράδειγμα, αντιμετώπισε σημαντικές αποτυχίες με τα έργα του για πυρίτιο, με το τσιπ”Braga”να καθυστερήσει και να υποβαθμιστεί. Ενώ οι ανταγωνιστές εξακολουθούν να προσπαθούν να οικοδομήσουν μια ενιαία GPU για να ταιριάξουν με τη γενική απόδοση της Nvidia, ο ηγέτης της αγοράς έχει ήδη κατακερματιστεί από τον προβληματικό χώρο με εξειδικευμένους συν-επεξεργαστές. Η αναλυτική προσέγγιση της Nvidia αντιπροσωπεύει μια θεμελιωδώς διαφορετική αρχιτεκτονική φιλοσοφία.
Η στρατηγική φαίνεται να αντανακλά ένα συναίσθημα που προηγουμένως εκφράζεται από τη δημιουργία του CEO της Nvidia, ο Jensen Huang, ο οποίος κάποτε ζήτησε: Η Nvidia ενισχύει την ηγεσία της στην αγορά. Με την άφιξή του για τα τέλη του 2026, η NVIDIA δεν είναι απλώς κτίρια μάρκες. Αρχιτεκτονεί το μέλλον του κέντρου δεδομένων AI, ένα εξειδικευμένο στοιχείο κάθε φορά.