Μέσα σε εντατικοποίηση των παγκόσμιων πιέσεων της αλυσίδας εφοδιασμού και υλικού, ιδιαίτερα όσον αφορά την πρόσβαση σε GPU υψηλής απόδοσης, η αποτελεσματικότητα του AI έχει γίνει μια κεντρική εστίαση για πολλές τεχνολογικές εταιρείες. Κατά τη διάρκεια των κερδών του 2024 του τριμήνου το Μάρτιο του 2025, η Tencent ανέφερε ότι μειώνει τις απαιτήσεις της GPU ενσωματώνοντας τα μοντέλα της Deepseek. Το κατέδειξε ότι-αυτή η πραγματικότητα.”Ενώ η Tencent εξακολουθεί να προμηθεύει υλικό, όπως τα τσιπ H20 της Nvidia για ενσωμάτωση Deepseek σε εφαρμογές όπως το WeChat, η δήλωση υπογραμμίζει μια στρατηγική εξάρτηση από τα αποτελεσματικά σχέδια του Deepseek.jpg”> Το Push Open Source της DeepSeeek ξεκινάει

Ενίσχυση αυτής της απόδοσης-πρώτης προσέγγισης, η DeepSeek ανακοίνωσε μια νέα πρωτοβουλία ανοιχτού κώδικα μέσω του X. Περιγράφοντας το σχέδιο ως”Μικρή αλλά ειλικρινή πρόοδο”Το πρώτο στοιχείο που παρουσιάστηκε στο πλαίσιο αυτού του προγράμματος, είναι το flashmla.

Είμαστε μια μικροσκοπική ομάδα @deepseek_ai Εξερευνώντας την Agi. Ξεκινώντας την επόμενη εβδομάδα, θα είμαστε ανοιχτοί 5 repos, μοιράζοντας την μικρή αλλά ειλικρινή μας πρόοδο με πλήρη διαφάνεια. href=”https://twitter.com/deepseek_ai/status/1892786555494019098?ref_src=twsrc%5etfw”target=”_ blank”> 21 Φεβρουαρίου 2025 Αποκάλυψη του πυρήνα, μια παραλλαγή στους μηχανισμούς προσοχής μετασχηματιστή που έχουν σχεδιαστεί για βελτιωμένη απόδοση, ειδικά συντονισμένη για την αρχιτεκτονική GPU της Hopper της NVIDIA. Διατίθεται σε github κάτω από μια άδεια MIT , ο πυρήνας περιγράφεται από το Deepseek ως”επεξεργασμένα για τις μεταβλητές αλληλουχίες μήκους”σε σενάρια εξυπηρέτησης και”που τροφοδοτούν τα συστήματα παραγωγής”. Χρησιμοποιεί το Paged KVCache-μια τεχνική διαχείρισης μνήμης βελτιστοποιώντας την αποθήκευση για τις καταστάσεις κλειδιού-αξίας σε μοντέλα μετασχηματιστών-με μέγεθος 64 μπλοκ. Αυτή η προσέγγιση επιτρέπει την πιο ευέλικτη κατανομή μνήμης σε σύγκριση με τη συνεχόμενη προσωρινή αποθήκευση, ενδεχομένως τη βελτίωση της απόδοσης για ταυτόχρονα αιτήματα με διαφορετικά μήκη αλληλουχίας. 580 TFLOPS, αν και αυτά τα στοιχεία απαιτούν ανεξάρτητη επικύρωση πραγματικού κόσμου σε διάφορους φόρτους εργασίας. Η εταιρεία πιστώνει την έμπνευση από τα καθιερωμένα έργα όπως το flashattention 2 & 3 Βιβλιοθήκη

Το αποθετήριο Github επισημαίνει επίσης τις προσπάθειες της κοινότητας που προσαρμόζουν την τεχνολογία για άλλες πλατφόρμες υλικού, συμπεριλαμβανομένων εκείνων από το metax target=”_ blank”> metax-maca/flashmla ), moore threads target=”_ blank”> moorethreads/mt-flashmla ), hygon dcu Target=”_ blank”> opendas/mlattention ), intellifusion target=”_ blank”> intellifusion/tyllm ), iluvatar corex target=”_ blank”> deep-spark/flashmla ), και amd instinct ( aiter/mla ). Όπως φέρεται να επιταχύνει το χρονοδιάγραμμα ανάπτυξης για το επόμενο σημαντικό μοντέλο του, το R2, μετατοπίζοντας από ένα προγραμματισμένο ντεμπούτο τον Μάιο του 2025 σε ένα ενδεχομένως προηγούμενο εκτόξευση, όπως αναφέρθηκε στα τέλη του Qwen Models. Η σύνθεση αυτής της δυναμικής της αγοράς αποτελεί ρυθμιστικές προκλήσεις, συμπεριλαμβανομένων των περιορισμών των ΗΠΑ και των ερευνών στην Ευρώπη σχετικά με τις πρακτικές δεδομένων. Επιπλέον, η εξάρτηση του DeepSeeek από το υλικό Nvidia παραμένει ένας παράγοντας, δεδομένου ότι οι συνεχιζόμενοι έλεγχοι εξαγωγής των ΗΠΑ επηρεάζουν τη διαθεσιμότητα τσιπ στην Κίνα. Οι παραμέτρους Counts, μια διαδρομή που υποδεικνύεται από τα μοντέλα έντασης των πόρων της OpenAI, όπως το γιγαντιαίο, ακριβό GPT-4,5. href=”https://arxiv.org/abs/2504.02495″target=”_ blank”> διαθέσιμο χαρτί σε arxiv ), μια τεχνική ευθυγράμμισης συμπερασμάτων-χρόνου που στοχεύει στη μείωση της εξάρτησης από την ανθρώπινη ανατροφοδότηση. Αρχιτεκτονικές, ενδεχομένως οικοδόμηση ενός ανταγωνιστικού πλεονεκτήματος σε ένα περιβάλλον περιορισμένου πόρου.

Categories: IT Info