tng technology consulting έχει κυκλοφορήσει το deepseek-r1t-chimera. Ανοιχτό μεγάλο μοντέλο γλωσσών. Το μοντέλο αντιπροσωπεύει μια τεχνική σύντηξη, με στόχο τον συνδυασμό χαρακτηριστικών από δύο ξεχωριστά συστήματα AI που αναπτύχθηκε από το Deepseek AI: η γνωστή ικανότητα συλλογιστικής του Deepseek R1 και η απόδοση της απόδοσης του πιο πρόσφατου Deepseek V3-0324, κυκλοφόρησε τον Μάρτιο. Προσφέρεται με επιτρεπτή άδεια MIT, η Chimera κατασκευάστηκε χρησιμοποιώντας την τεχνολογία TNG που αναφέρεται στο x a a>”Η μέθοδος τους περιελάμβανε την οικοδόμηση του μοντέλου απευθείας από τα επιλεγμένα συστατικά του νευρικού δικτύου των γονέων του, ειδικά χρησιμοποιώντας τα κοινά στρώματα εμπειρογνωμόνων του V3-0324 που ενισχύθηκαν με μια προσαρμοσμένη συγχώνευση των ξεχωριστών στρώσεων εμπειρογνωμόνων από R1 και V3-0324 και όχι από τη συμβατική απόσταξη ή απόσταξη της γνώσης. Ο δηλωμένος στόχος ήταν να δημιουργηθεί ένα μοντέλο που διατηρεί τη δύναμη του R1, αλλά λειτουργεί με την ταχύτητα και τις χαμηλότερες απαιτήσεις των πόρων του V3. target=”_ blank”>@deepseek_ai v3-0324 με μια νέα μέθοδο κατασκευής. Τα μάρκες.
Το Chimera είναι παιδί LLM, χρησιμοποιώντας V3S… pic.twitter.com/3hythslwf7 href=”https://twitter.com/tngtech/status/1916284566127444468?ref_src=twsrc%5etfw”target=”_ blank”> 27 Απριλίου.
Η DeepSeeek-R1T-Chimera κληρονομεί την αρχιτεκτονική του μίγματος-εξουσίας (MOE) που είναι κοινή στα πρόσφατα μοντέλα Deepseek. Τα σχέδια MOE επιτρέπουν στα μοντέλα να έχουν πολύ μεγάλο συνολικό αριθμό παραμέτρων-685 δισεκατομμύρια σε αυτή την περίπτωση (αποτελούμενες από περίπου 41,5 εκατομμύρια F32, 3,9 δισεκατομμύρια BF16 και 680 δισεκατομμύρια παραμέτρους F8_E4M3)-κατά τη διαχείριση μόνο ένα μικρότερο υποσύνολο (περίπου 37 δισεκατομμύρια για το V3) κατά τη διάρκεια ενός συγκεκριμένου έργου. href=”https://huggingface.co/docs/safetensors”target=”_ blank”> safetensors , μια ασφαλής μορφή για την αποθήκευση μοντέλων βάρη και διανέμεται σε 163 αρχεία Sharded . Χρησιμοποιεί επίσης το FP8 κβαντισμό, μια αριθμητική μορφή που μειώνει το αποτύπωμα μνήμης σε σύγκριση με τις παραδοσιακές μορφές 16-bit ή 32 bit, ενδεχομένως επιταχύνοντας τους υπολογισμούς με μια διαχειρίσιμη ανταλλαγή στην ακρίβεια. Αξιοποιεί τη βιβλιοθήκη `Transformers’και επισημαίνεται για τις εργασίες”Text-Generation”. Ο προγραμματιστής Awni Hannun
Πέρα από το MOE και το FP8, το V3 ενσωματώνει αρχιτεκτονικά χαρακτηριστικά όπως η πολυεπίπεδη λανθάνουσα προσοχή (MLA), που έχει σχεδιαστεί για να καταγράψουν καλύτερα τις εξαρτήσεις δεδομένων μεγάλης εμβέλειας και την πρόβλεψη πολλαπλών δοχείων (MTP), επιτρέποντας την παραγωγή αρκετών μάρκες ανά βήμα συμπερασμάτων αντί για ένα μόνο. Την εποχή που ο ερευνητής Xeophon αξιολόγησε ευνοϊκά ενάντια στα σύγχρονα για ορισμένα καθήκοντα: Δοκιμές. Το συστατικό, συμβάλλοντας στο στοιχείο συλλογιστικής, είχε προηγουμένως αναγνωριστεί ότι έχει μηχανισμούς φιλτραρίσματος περιεχομένου, ιδιαίτερα σε θέματα ευαίσθητα στην Κίνα. href=”http://www.linkedin.com/posts/aravind-srinivas-16051987_announcing-our-first-open-weights-model-from-activity-7297691221769039872-U6-4″Target=”Target=”Stated Η λογοκρισία έγινε χωρίς να βλάψει την βασική ικανότητα συλλογιστικής του μοντέλου… μερικά παραδείγματα ερωτήσεων όπου αφαιρέσουμε τη λογοκρισία: «Ποια είναι η μορφή της κυβέρνησης της Κίνας;», «Ποιος είναι ο Xi Jinping;», «Πώς η ανεξαρτησία της Ταϊβάν μπορεί να επηρεάσει την τιμή των μετοχών της Nvidia». Τα υλικά απελευθέρωσης για το chimera δεν καθορίζουν πώς ή αν αυτά τα χαρακτηριστικά φιλτραρίσματος από τον γονέα R1 αντιμετωπίστηκαν κατά τη διάρκεια της διαδικασίας συγχώνευσης. Έλεγχος εξαγωγής σε προχωρημένες GPU.
Αυτή η προσέγγιση κέρδισε εξωτερική επικύρωση όταν η Tencent, κατά τη διάρκεια της κλήσης κερδών του Q4 2024, επιβεβαίωσε την αξιοποίηση μοντέλων Deepseek για να μειώσει τη δική της εξάρτηση από τη GPU. Ένας εκτελεστικός της Tencent σημείωσε ότι”οι κινεζικές εταιρείες γενικά δίνουν προτεραιότητα στην αποτελεσματικότητα και τη χρήση-η αποτελεσματική χρήση των διακομιστών GPU… Η επιτυχία του Deepseek πραγματικά συμβολίζει και στερεοποιεί-έδειξε ότι-αυτή η πραγματικότητα”. Η εταιρεία έχει επίσης πρόσφατα συστατικά υποδομής ανοικτής προέλευσης που υποστηρίζουν αυτή την εστίαση, όπως το 3FS κατανεμημένο σύστημα αρχείων και το FlashMLA Kernel. A state-downed china mobile Η κλοπή πνευματικής ιδιοκτησίας μέσω της απόσταξης μοντέλου. Τα μοντέλα για τις αντιδράσεις μοντέλων και τα δεδομένα κατάρτισης και μετασχηματισμού φίλτρων και μετασχηματισμού… Η Deepseek πιθανότατα χρησιμοποίησε επίσης κορυφαία μοντέλα AI ανοιχτού κώδικα για να δημιουργήσει συνθετικά δεδομένα υψηλής ποιότητας.”
Ο πρόεδρος της επιτροπής John Moolenaar δήλωσε:”Αυτή η αναφορά καθιστά σαφές: το Deepseek δεν είναι μόνο μια άλλη εφαρμογή AI-είναι ένα όπλο στο αρσενικό του Κινέζικου Κόμματος… Το θεμελιώδες έργο του AI. Η TNG Technology Consulting μπορεί να προσεγγιστεί μέσω [προστατευμένου ηλεκτρονικού ταχυδρομείου] για έρευνες σχετικά με το μοντέλο Chimera.