Το Deepseek στοιχηματίζει ότι τα ευθυγραμμισμένα μοντέλα AI δεν χρειάζεται να εκπαιδεύονται ατελείωτα-χρειάζονται καλύτερους τρόπους για να λογοδοτήσουν μέσω των αποτελεσμάτων τους καθώς τα παράγουν. Σε συνεργασία με το Πανεπιστήμιο Tsinghua, η εταιρεία εισήγαγε μια νέα μέθοδο που ονομάζεται αυτο-Principled Critique Tuning (SPCT), μια τεχνική μοντελοποίησης γενετικής ανταμοιβής που σχεδιάστηκε για να λειτουργήσει κατά τη διάρκεια του συμπερασμού αντί να απαιτεί δεδομένα προτιμήσεων μεγάλης κλίμακας κατά τη διάρκεια της εκπαίδευσης. Target=”_ Blank”> Έρευνα που δημοσιεύθηκε στις 4 Απριλίου και δοκιμάστηκε σε ένα μοντέλο που ονομάζεται DeepSeeek-Grm-27B. Τα αποτελέσματα είναι εντυπωσιακά. Το αποτέλεσμα: μειωμένο κόστος, καλύτερη επεκτασιμότητα και απόδοση της τελευταίας τεχνολογίας με μικρότερα μοντέλα. απαντήσεις. Το μοντέλο Deepseek-GRM των 27 δισεκατομμυρίων παραμέτρων που χρησιμοποιεί το SPCT επιτυγχάνει βαθμολογία MT Bench 8.35 μοντέλων που έχουν εκπαιδευτεί με βελτιστοποίηση άμεσης προτίμησης (DPO), η οποία βαθμολογεί 7,58-χωρίς αυξανόμενο μέγεθος μοντέλου.
Ανεξάρτητοι δείκτες αναφοράς επιβεβαιώνουν περαιτέρω ότι το SPCT επιτρέπει στα μικρότερα μοντέλα να ταιριάζουν με την απόδοση πολύ μεγαλύτερων ομολόγων, όπως τα μοντέλα κλίμακας 671B, αξιοποιώντας τον υπολογισμό των συμπερασμάτων με 32 δείγματα ανά ερώτημα. Σύμφωνα με το έγγραφο, το πλεονέκτημα του SPCT γίνεται πιο εμφανές καθώς τα μοντέλα μεγαλώνουν, προσφέροντας ένα πολλά υποσχόμενο μονοπάτι προς τα εμπρός για τους προγραμματιστές του AI που θέλουν να αποφύγουν την υπολογιστική διαδρομή της ενισχυτικής μάθησης από την ανθρώπινη ανατροφοδότηση (RLHF). Σύνθεση αρχής, παραγωγή απόκρισης, φιλτράρισμα κριτικής και αρχική βελτίωση. Κάθε στάδιο βασίζεται στο τελευταίο για να βελτιώσει σταδιακά την ποιότητα και την ευθυγράμμιση της παραγωγής του μοντέλου. Για παράδειγμα, κατά τη διαχείριση των εργασιών που σχετίζονται με την κωδικοποίηση, το μοντέλο μπορεί να καθορίσει ότι η απόδοση της μνήμης θα πρέπει να έχει προτεραιότητα έναντι του χρόνου εκτέλεσης και της αναγνωσιμότητας. Αυτές οι αρχές καθοδηγούν την επόμενη φάση, στην οποία το μοντέλο δημιουργεί μια αρχική απόκριση μέσα σε ένα περιορισμένο παράθυρο 4.096-token. Αξιολογεί την παραγωγή του έναντι των συνθετικών αρχών και δημιουργεί ανατροφοδότηση για βελτίωση. Αυτές οι κριτικές φιλτράρονται σε πραγματικό χρόνο από ένα μοντέλο Meta ανταμοιβής (META-RM), το οποίο χρησιμοποιεί ενσωμάτωση ανταμοιβής 512 διαστάσεων για να βαθμολογήσει την ποιότητα κάθε κριτικής. Οι κριτικές κακής ποιότητας απορρίπτονται για να εξασφαλιστεί η ακεραιότητα του κύκλου βελτίωσης. Χρησιμοποιώντας τη βελτιστοποίηση βασισμένη σε κλίση, το μοντέλο ρυθμίζει την εσωτερική ευρετική ευθυγράμμιση της με βάση το πόσο καλά η κριτική ταιριάζει με την προβλεπόμενη απάντηση. Αυτός ο επαναλαμβανόμενος συντονισμός επιτρέπει στο μοντέλο να συγκλίνει επαναληπτικά σε υψηλής ποιότητας εξόδους, προσαρμόστε δυναμικά τις λεπτομέρειες κάθε ερώτησης χωρίς να απαιτείται η απόδοση της εξωτερικής παρέμβασης ή της επανεκπαίδευσης. (MOE) Ρύθμιση. Το μοντέλο GRM-27B χρησιμοποιεί 16 εμπειρογνώμονες, με μόνο δύο ενεργοποιημένα ανά διακριτικό, και υποστηρίζει παράθυρα περιβάλλοντος μέχρι 128.000 μάρκες. Η κερδοσκοπική εκτέλεση ενισχύει περαιτέρω την απόδοση με την προτίμηση των δυναμικών διαδρομών κριτικής, μειώνοντας την καθυστέρηση κατά τη διάρκεια της συμπερίληψης. Κατά την επεξεργασία παρτίδων μεμονωμένων ερωτημάτων, το σύστημα καταγράφει λανθάνουσα κατάσταση 1,4 δευτερολέπτων και απόδοση 42 μάρκες ανά δευτερόλεπτο. Για τα μεγέθη παρτίδων οκτώ, η καθυστέρηση αυξάνεται σε 3,1 δευτερόλεπτα, ενώ οι κλίμακες διακίνησης σε 208 μάρκες ανά δευτερόλεπτο. Το αποτέλεσμα είναι μια πρακτική, οικονομικά αποδοτική μέθοδος που διατηρεί την ισοτιμία απόδοσης με πολύ μεγαλύτερα μοντέλα. Το μοντέλο Deepseek-Grm, με 27 δισεκατομμύρια παραμέτρους και χρησιμοποιώντας το SPCT, επιτυγχάνει κόστος κατάρτισης περίπου 12.000 δολαρίων, ενώ παράλληλα παρέχει μια ισχυρή βαθμολογία MT Bench 8,35. Αντίθετα, το Nemotron-4, ένα μοντέλο παραμέτρων 340B, συνεπάγεται κόστος άνω των 1,2 εκατομμυρίων δολαρίων για να φτάσει σε βαθμολογία MT Bench 8,41. Το GPT-4O της OpenAi, με 1,8 τρισεκατομμύρια παραμέτρους, βαθμολογεί 8,72 με εκτιμώμενο κόστος 6,3 εκατομμυρίων δολαρίων. Εκπαίδευση Costdeepseek-Grm27B8.35 $ 12.000nemotron-4340b8.41 $ 1.2 εκατομμύρια Gpt-4O1.8T8.72 $ 6.3 εκατομμύρια
Η απόδοση, το SPCT προσφέρει αναγκαστικά πλεονεκτήματα στην βιωσιμότητα και την ευελιξία. Εξαλείφει σχεδόν το 90 % του ανθρώπινου σχολιασμού που απαιτείται συνήθως για την ευθυγράμμιση, μειώνοντας δραστικά τις επενδύσεις εργασίας και χρόνου. Επιπλέον, μειώνει την κατανάλωση ενέργειας κατά 73 % σε σύγκριση με την DPO, καθιστώντας την μια περιβαλλοντικά υπεύθυνη επιλογή για την ανάπτυξη του AI. Οι παραδοσιακές μέθοδοι ευθυγράμμισης περιορίζονται από την ποιότητα και το πεδίο εφαρμογής των συνόλων δεδομένων κατάρτισης τους, καθιστώντας τα αργά να προσαρμοστούν σε νέα ή εξελισσόμενα καθήκοντα. Αντίθετα, η αναδρομική στρατηγική συμπερασμάτων της SPCT επιτρέπει στα μοντέλα να δημιουργούν και να βελτιώνουν τις αρχές εν πτήσει, επιτρέποντάς τους να χειρίζονται απρόβλεπτες εισροές και να μεταβάλλονται στόχοι χωρίς επανεκπαίδευση. Η ομάδα Deepseek διερευνά ενεργά την εφαρμογή του SPCT στον έλεγχο ρομποτικής σε πραγματικό χρόνο και τα κατανεμημένα συστήματα μάθησης, όπου η συνεργασία μεταξύ πολλαπλών παραγόντων απαιτεί προσαρμοστικούς μηχανισμούς ευθυγράμμισης για τη στρατηγική Scaling ai μέσω της SMAR Architecture παρά το μεγαλύτερο στοιχείο της Deepseek. Στις 24 Μαρτίου, η Deepseek κυκλοφόρησε μια ανοιχτή ενημέρωση του μοντέλου Deepseek-V3 για να αγκαλιάσει το πρόσωπο με άδεια MIT, που ονομάστηκε Deepseek v3.1. Το μοντέλο, που ζυγίζει σε 641GB, τρέχει αποτελεσματικά στο τοπικό υλικό.
Developer Awni Hannun, δοκιμάζοντας μια ποσοτική έκδοση 4-bit σε ένα στούντιο Apple Mac 512GB, σε αυτό το repository για τους αναπτυγμένους που αναζητούν για να πειραματιστούν με ανοιχτό βάρος. Το μοντέλο V3-0324/V3.1 είναι χτισμένο σε ένα σχεδιασμό μείγματος-εξουσίας (MOE), στο οποίο μόνο περίπου 37 δισεκατομμύρια από τα συνολικά 685 δισεκατομμύρια παραμέτρους του είναι ενεργές κατά τη διάρκεια οποιουδήποτε βήματος συμπερασμάτων. Αυτή η ρύθμιση επιτρέπει την παραγωγή αποδοτικής μνήμης και ενισχύεται από αρχιτεκτονικά χαρακτηριστικά, όπως η πολυεπίπεδη λανθάνουσα προσοχή (MLA) και η πρόβλεψη πολλαπλών τερματικών (MTP). Οι εκδόσεις των εμπορικών μοντέλων της DeepSeeek. Η Tencent επιβεβαίωσε κατά τη διάρκεια της έκκλησης των κερδών του 2024 του τριμήνου ότι είχε ενσωματώσει μοντέλα Deepseek σε προϊόντα όπως το WeChat. Ένας εκτελεστικός της Tencent δήλωσε:”Η βιομηχανία και εμείς, μέσα στη βιομηχανία, παίρνουμε πολύ μεγαλύτερη παραγωγικότητα σε μια μεγάλη εκπαίδευση μοντέλων γλωσσών από τις υπάρχουσες GPU χωρίς να χρειάζεται να προσθέσουμε επιπλέον GPUs με τον ρυθμό που αναμενόταν προηγουμένως. Το 2023, οι Η.Π.Α. αποκλείστηκαν τις πωλήσεις των μοντέλων A800 και H800. Σε απάντηση, η Tencent έθεσε σε σχέση με τις χύμα παραγγελίες για το H20, ένα τσιπ χαμηλότερης ισχύος που εξακολουθεί να επιτρέπεται σύμφωνα με τους τρέχοντες κανόνες. Το SPCT ευθυγραμμίζεται περαιτέρω με αυτή τη στρατηγική, επιτρέποντας την καλύτερη απόδοση χωρίς να αυξήσει τον αριθμό των δειγμάτων κατάρτισης ή να βασίζεται σε σχολιασμό προτιμήσεων μεγάλης κλίμακας. Όπως αναφέρθηκε στις 26 Φεβρουαρίου, η εταιρεία επιτάχυνε το αρχικό της χρονοδιάγραμμα για να συμβαδίσει με τους αντιπάλους της. Το μοντέλο R1 είχε τραβήξει την προσοχή για την αποτελεσματικότητά του, αλλά έπεσε σε περιοχές όπως η συλλογιστική, η πολύγλωσση ακρίβεια και η δημιουργία κώδικα.
Οι ανταγωνιστές κινούνται επίσης επιθετικά. Το μοντέλο O1 O1 του Microsoft Integrated OpenAi σε copilot χωρίς επιπλέον κόστος, και στη συνέχεια σύντομα μετά από αυτό αναβαθμίστηκε σε O3-Mini-High. Το XAI κυκλοφόρησε το Grok 3 που ξεπερνά το GPT-4O. Η Google τον Μάρτιο παρουσίασε στη συνέχεια το Gemini 2.5 Pro Pro Experimental, αποκαθιστώντας τις κορυφαίες θέσεις σε διάφορα σημεία αναφοράς και στη συνέχεια λίγο μετά την απελευθέρωση της ελεύθερης πρόσβασης σε αυτό το μοντέλο για όλους τους χρήστες.
Το OpenAi αντέδρασε σε όλες αυτές τις εξελίξεις μετά την απόφαση του Φεβρουαρίου να ακυρώσει την απελευθέρωση του ισχυρότερου μοντέλου O3 για να κυκλοφορήσει το O3 και το O4-Mini στο εγγύς μέλλον, πιθανότατα να ασχοληθεί με την απελευθέρωση του New Llama 4, με το LLAMA 4, με το LLAMA 4, με το LLAMA 4, με το LLAMA-WET, με το LLAMA-WET, τα δύο μοντέλα, τα δύο μοντέλα. Frontier μεγάλα γλωσσικά μοντέλα που εισάγουν σημαντικές αρχιτεκτονικές αλλαγές ενώ επεκτείνουν την παρουσία της εταιρείας σε εφαρμογές καταναλωτών και πλατφόρμες cloud.