Αυτός ο ιστότοπος μπορεί να κερδίσει προμήθειες συνεργατών από τους συνδέσμους σε αυτήν τη σελίδα. Όροι χρήσης.
Είναι γεγονός της ζωής ότι η διατήρηση του υπολογιστή σας σε κορυφαία μορφή απαιτεί συνεχή επαγρύπνηση. Τώρα απλά φανταστείτε να προσπαθείτε να διατηρήσετε έναν υπερυπολογιστή με εκατομμύρια εξαρτήματα να λειτουργούν ομαλά. Αυτό είναι το έργο με το οποίο ασχολείται επί του παρόντος ο Justin Whitt, Διευθυντής Προγράμματος στο Oak Ridge National Laboratory (ORNL). Σε μια πρόσφατη συνέντευξή του, συζήτησε μερικά από τα προβλήματα που είχε το εργαστήριο με τον νέο υπερυπολογιστή Frontier. Αυτό το μηχάνημα τέρας είναι ο πρώτος υπολογιστής exascale στον κόσμο. Έκανε το ντεμπούτο του τον Ιούνιο στην #1 θέση στη λίστα TOP500 με τους πιο ισχυρούς υπολογιστές στον κόσμο. Περιέγραψε ορισμένα από τα προβλήματα που προκάλεσαν το Frontier, λέγοντας ότι αυτή τη στιγμή αντιμετωπίζει βλάβες του συστήματος κάθε λίγες ώρες.
Το Frontier ήταν υπό κατασκευή για τρία χρόνια, με αναφερόμενο κόστος 600 εκατομμυρίων δολαρίων. Λειτουργεί με την αρχιτεκτονική HPE Cray EX235a με επεξεργαστές AMD EPYC 64C. Διαθέτει 74 καμπίνες με περισσότερους από 9.400 κόμβους που τροφοδοτούνται από AMD για συνολικά 606.208 πυρήνες CPU. Οι GPU 37.888 AMD Radeon Instinct MI250X του δίνουν επίσης 8.335.360 πυρήνες GPU. Χρησιμοποιεί πάνω από 90 μίλια καλωδίωσης για να συνδέσει τα πάντα.
Αν και η διατήρηση ενός συστήματος όπως αυτό ακούγεται επαχθής, αυτή είναι η δουλειά του Whitt και λέει ότι ήταν ένα ενδιαφέρον ταξίδι μέχρι τώρα. Περιέγραψε τα προβλήματα που αντιμετωπίζει η ομάδα σε μια συνέντευξη στο InsideHPC:“Εργαζόμαστε πάνω σε ζητήματα στο υλικό και βεβαιωνόμαστε ότι καταλαβαίνουμε (τι είναι) επειδή θα έχετε αποτυχίες σε αυτήν την κλίμακα.”Συνόψισε την κατάσταση λέγοντας:”Μέσος χρόνος μεταξύ της αποτυχίας στις ένα σύστημα αυτού του μεγέθους είναι ώρες, δεν είναι μέρες.”
[ενσωματωμένο περιεχόμενο]
Ο Whitt αρνήθηκε να αναφερθεί σε λεπτομέρειες σχετικά με το ποιο υλικό αντιμετωπίζει προβλήματα. Το InsideHPC λέει ότι προηγουμένως ήταν το ύφασμα HPE Slingshot, ένας διακόπτης υψηλής ταχύτητας 64 θυρών που συνδέει τις λεπίδες μέσα στο σύστημα. Αυτά τα ζητήματα προφανώς επιλύθηκαν, καθώς το σύστημα ήταν σε θέση να εκτελέσει το σημείο αναφοράς High-Performance Linpack. Επί του παρόντος, ορισμένα από τα προβλήματα σχετίζονται προφανώς με τους επιταχυντές GPU AMD Instinct.”Τα ζητήματα καλύπτουν πολλές διαφορετικές κατηγορίες, οι GPU είναι μόνο μία”, είπε ο Whitt. Είπε ότι το πρόβλημα κατανέμεται αρκετά ομοιόμορφα μεταξύ του διαφορετικού υλικού της Frontier. Επίσης, τα προβλήματα προφανώς προκύπτουν όταν ο υπολογιστής εκτελεί εξαιρετικά απαιτητικούς φόρτους εργασίας, σύμφωνα με Η έκθεση. Ο Whitt λέει ότι η εκτέλεση ενός σημείου αναφοράς είναι ένα διαφορετικό κουτί σκουληκιών σε σύγκριση με τις τρέχουσες επιστημονικές εφαρμογές.
Ανεξάρτητα από αυτό, το σύστημα δεν αναμένεται να είναι πλήρως λειτουργικό για επιστημονικές εργασίες μέχρι τον Ιανουάριο του 2023. Αυτό σημαίνει ότι ο Whitt και Η ομάδα του έχει ακόμα λίγο χρόνο για να αντιμετωπίσει τα προβλήματα. Παρόλα αυτά, φαίνεται ότι η ομάδα έχει τελειώσει τη δουλειά της. Ο Whitt είπε ότι το να πάμε μια μέρα χωρίς αποτυχία”θα ήταν εξαιρετικό”. Στη συνέχεια είπε ότι ο στόχος για το χρόνο λειτουργίας”είναι ακόμα ώρες”, το οποίο είναι προφανώς μεγαλύτερο από το τρέχον ποσοστό αποτυχίας. Αν και αυτό ακούγεται σαν μια δύσκολη κατάσταση, το Frontier έχει 60 εκατομμύρια εξαρτήματα, επομένως δεν προκαλεί έκπληξη ότι υπάρχουν μερικοί”λόξυγγκας”, σύμφωνα με Whitt. Παρά αυτά τα ζητήματα και τις καθυστερήσεις της εφοδιαστικής αλυσίδας που σχετίζονται με τον COVID-19, ο Whitt λέει ότι η εταιρεία εξακολουθεί να βρίσκεται σε καλό δρόμο για την ημερομηνία κυκλοφορίας, όταν η Frontier θα ξεκινήσει την πραγματική της δουλειά με την εκτέλεση προγραμμάτων χρηστών και όχι μόνο σημείων αναφοράς.
Τώρα Διαβάστε: