Ο κινεζικός τεχνολογικός γίγαντας Alibaba αποκάλυψε ένα ισχυρό νέο σύστημα που μειώνει το κόστος λειτουργίας της τεχνητής νοημοσύνης έως και 82 τοις εκατό.

Η τεχνολογία, που ονομάζεται Aegaeon, αντιμετωπίζει μια κρίσιμη πρόκληση για τους παρόχους cloud: πώς να εξυπηρετούν αποτελεσματικά χιλιάδες εξειδικευμένα μοντέλα τεχνητής νοημοσύνης που οι πελάτες χρησιμοποιούν σπάνια.

Στην έρευνα που παρουσιάζεται στην έρευνα.

href=”https://sigops.org/s/conferences/sosp/2025″target=”_blank”>Συμπόσιο για τις Αρχές Λειτουργικών Συστημάτων (SOSP) στη Σεούλ—ένας από τους πιο διάσημους χώρους στην επιστήμη των υπολογιστών—Η Alibaba εξέθεσε πώς οι έξυπνες μέθοδοι προγραμματισμού της Aegaeon συγκεντρώνουν πολύ πιο ακριβά το τρέχον λογισμικό από το GPUim src=”https://winbuzzer.com/wp-content/uploads/2023/09/Alibaba-Campus-Official.jpg”>

Κατά τη διάρκεια μιας δοκιμής τριών μηνών, το σύστημα επέτρεψε στο Alibaba Cloud να εξυπηρετήσει μια τεράστια συλλογή μοντέλων χρησιμοποιώντας μόνο 213 GPU 19, <1, href="https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf"target="_blank">δραστική μείωση του λειτουργικού κόστους για την αγορά τεχνητής νοημοσύνης.

Η καινοτομία στοχεύει άμεσα τα τεράστια απόβλητα που είναι εγγενή στη σημερινή υποδομή τεχνητής νοημοσύνης. Τα δεδομένα της Alibaba αποκάλυψαν μια έντονη ανισορροπία: το 17,7% του στόλου GPU της ήταν συνδεδεμένο εξυπηρετώντας μια”μακριά ουρά”εξειδικευμένων μοντέλων που αντιστοιχούσαν μόλις στο 1,35% των συνολικών αιτημάτων των πελατών.

Για πλατφόρμες cloud που φιλοξενούν μια αυξανόμενη αγορά διαφορετικών μοντέλων, αυτή η αναποτελεσματικότητα αντιπροσωπεύει ένα τεράστιο κόστος

ανάπτυξη, με συν-συγγραφέα Ο CTO της Alibaba Cloud, Zhou Jingren, σηματοδοτεί μια στρατηγική ώθηση υψηλού επιπέδου για την επίλυση αυτού του προβλήματος.

Από τις Idle GPUs έως τον Smart Scheduling: The Aegaeon Breakthrough

Στον πυρήνα της, η Aegaeon αντικαθιστά τα ακατέργαστα, ακατέργαστα, απαιτητικά συστήματα που χρησιμοποιούνται σε πιο μακροχρόνια αιτήματα. προσέγγιση αυτόματης κλιμάκωσης”.

Τα παραδοσιακά συστήματα πρέπει να περιμένουν ένα μοντέλο να τελειώσει εντελώς, δημιουργώντας μια απόκριση για έναν χρήστη. Αυτή η διαδικασία κλειδώνει τη GPU, δημιουργώντας σοβαρό «μπλοκάρισμα της γραμμής», όπου επείγοντα αιτήματα για άλλα μοντέλα κολλάνε σε μια ουρά πίσω από μια μακροχρόνια εργασία.

Η αρχιτεκτονική της Aegaeon είναι πιο έξυπνη. Μπορεί να θέσει σε παύση τη διαδικασία ενός μοντέλου στη μέση γενιά, ανά διακριτικό, για να χειριστεί γρήγορα ένα νέο αίτημα για διαφορετικό μοντέλο στο ίδιο υλικό.

Αυτός ο προληπτικός προγραμματισμός επιτρέπει σε μια μεμονωμένη GPU να εξυπηρετεί με ρευστό τρόπο πολλαπλά, ανόμοια μοντέλα —έως και επτά ανά GPU στη δοκιμή—χωρίς τη μεγάλη καθυστέρηση της υπηρεσίας

p> στο <α href="https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf"target="_blank">έρευνα έρευνας, αυτό το λεπτόκοκκο στοιχείο ελέγχου είναι απίστευτα αποτελεσματικό. Η Aegaeon χρησιμοποιεί μια σειρά από βελτιστοποιήσεις πλήρους στοίβας, συμπεριλαμβανομένης της επαναχρησιμοποίησης εξαρτημάτων για την επιτάχυνση της επανεκκίνησης του κινητήρα και της ρητής διαχείρισης μνήμης για την αποφυγή κατακερματισμού, οι οποίες μαζί μειώνουν την τυπική επιβάρυνση που σχετίζεται με την αυτόματη κλιμάκωση κατά ένα αξιοσημείωτο 97%.

Ως αποτέλεσμα, η Alibaba ισχυρίζεται ότι η Aegaeon μπορεί να υποστηρίξει 2 έως 2,5 φορές υψηλότερους ρυθμούς αλλαγής της οικονομικής λύσης. μοντέλο κατάλογος.

Beyond Brute Force: How Token-Level Scaling Solves the AI’s Long Tail Problem

Αυτή η σημαντική ανακάλυψη στη λειτουργική αποτελεσματικότητα διαφέρει από τις καινοτομίες που μειώνουν το κόστος εκπαίδευσης AI. Παρόλο που προσφέρει τεράστια εξοικονόμηση πόρων, το ντεμπούτο της Aegaeon δεν είναι επανάληψη της στιγμής του DeepSeek τον Ιανουάριο του 2025.

Σε αυτό το γεγονός, μια δημοσίευση από την κινεζική εταιρεία DeepSeek πρότεινε ριζικά φθηνότερες μεθόδους εκπαίδευσης, προκαλώντας ένα μεγάλο ξεπούλημα τεχνολογικών μετοχών που έπληξε ιδιαίτερα τους κατασκευαστές GPU όπως η Nvidia.

αν είναι λιγότερο εντυπωσιακό, η πρόκληση του κόστους συμπερασμάτων — το τιμή για πραγματικά *τρέχοντα* μοντέλα τεχνητής νοημοσύνης στην παραγωγή.

Η επίλυση αυτού του ζητήματος είναι στρατηγική αναγκαιότητα για την Alibaba. Η εταιρεία επιδιώκει μια επιθετική στρατηγική τεχνητής νοημοσύνης, κυκλοφορώντας μια συνεχή ροή μοντέλων ανοιχτού κώδικα και αποκλειστικής χρήσης για εργασίες που κυμαίνονται από την κωδικοποίηση έως την πολυτροπική λογική.

Αυτή η στρατηγική δημιουργεί τη «μακριά ουρά» εξειδικευμένων μοντέλων που κάνει την Aegaeon τόσο πολύτιμη. Χτίζοντας μια αποτελεσματική πλατφόρμα για τη λειτουργία τους, η Alibaba μπορεί να καταστήσει την τεράστια αγορά τεχνητής νοημοσύνης οικονομικά βιώσιμη.

A New Front in the AI Arms Race: The Industry-Wide Push for Efficiency

Η εστίαση της Alibaba στον προγραμματισμό είναι ένα από τα πολλά μέτωπα σε έναν πόλεμο με αυξανόμενο κόστος τιμή τόσο της εκπαίδευσης όσο και του συμπεράσματος Παραμένοντας βασικό εμπόδιο για την ευρεία υιοθέτηση, οι μεγάλοι παίκτες επιτίθενται στο πρόβλημα της απόδοσης από διαφορετικές οπτικές γωνίες, δημιουργώντας ένα ποικίλο τοπίο καινοτομίας όπου κάθε τμήμα της στοίβας AI βελτιστοποιείται.

Μια δημοφιλής προσέγγιση είναι ο επανασχεδιασμός της ίδιας της αρχιτεκτονικής του μοντέλου. Τα πρόσφατα μοντέλα Granite 4.0 της IBM, για παράδειγμα, χρησιμοποιούν έναν υβριδικό σχεδιασμό που συνδυάζει μπλοκ Transformer με εξαιρετικά αποδοτικά στρώματα Mamba. Αυτή η μέθοδος επιδιώκει την αποτελεσματικότητα δημιουργώντας έναν ουσιαστικά πιο ευέλικτο κινητήρα από την αρχή, στοχεύοντας στο βασικό υπολογιστικό φορτίο.

Για τον επικεφαλής του έργου της IBM, Raghu Ganti,”όλα επιστρέφουν στη μείωση της κρυφής μνήμης KV… Περισσότερη απόδοση, χαμηλότερο λανθάνον χρόνο, μεγαλύτερο μήκος περιβάλλοντος.”

Μια άλλη στρατηγική στο πλαίσιο της στρατηγικής. Τα μοντέλα Νευρωνικής Μνήμης Προσοχής (NAMM) της Sakana AI με βάση το Τόκιο χρησιμοποιούν εξελικτικούς αλγόριθμους για να διαχειρίζονται έξυπνα την κρυφή μνήμη KV ενός μοντέλου, ένα σημαντικό σημείο συμφόρησης στη μνήμη.

Αυτή η τεχνική μειώνει δραματικά το αποτύπωμα μνήμης για εργασίες που περιλαμβάνουν μεγάλα περιβάλλοντα. εξ ολοκλήρου. Οι ερευνητές αποκάλυψαν αυτό το καλοκαίρι ένα μοντέλο όρασης που μοιάζει με τον εγκέφαλο που μιμείται τις ανθρώπινες νευρικές δομές για ανώτερη ενεργειακή απόδοση.

Ένας από τους συν-συγγραφείς του, ο Zejin Lu, εξήγησε την ιδέα:”Για τους ανθρώπους, όταν ανιχνεύετε συγκεκριμένα αντικείμενα, έχουν μια τυπική θέση. Ξέρετε ήδη ότι τα παπούτσια είναι συνήθως στο κάτω μέρος, στο έδαφος. δέκα φορές λιγότερη ενέργεια από ένα τυπικό AI, αποδεικνύοντας ότι ο κομψός σχεδιασμός μπορεί μερικές φορές να νικήσει την ωμή βία.

Ο δυναμικός προγραμματισμός της Aegaeon είναι μια ισχυρή, συμπληρωματική προσέγγιση σε αυτές τις άλλες μεθόδους. Αποδεικνύει ότι η μηχανική εξελιγμένων συστημάτων μπορεί να αποφέρει εξοικονομήσεις εξίσου σημαντικές με αυτές από τις αρχιτεκτονικές επισκευές, διασφαλίζοντας ότι η επανάσταση της τεχνητής νοημοσύνης μπορεί να γίνει μια βιώσιμη επιχειρηματική πραγματικότητα.

Categories: IT Info