Kuaishou, μια εξέχουσα πλατφόρμα σύντομων βίντεο με έδρα το Πεκίνο, παρουσίασε το μοντέλο μεγάλης γλώσσας που αναπτύχθηκε μόνος του με το όνομα KwaiYii στο κοινό την περασμένη εβδομάδα, σύμφωνα με ένα report from TechNode. Επιπλέον, η εταιρεία αποκάλυψε επίσης την έρευνά της για τα Spiking Neural Networks και την ανάπτυξη του SpikeGPT.
Αυτή η έκδοση έρχεται μετά από μια φάση beta-testing. για μια υπηρεσία τύπου ChatGPT για συσκευές Android που ξεκίνησε στις 18 Αυγούστου. Η υπηρεσία διαλόγου, η οποία διαθέτει 13 δισεκατομμύρια παραμέτρους με ρίζες στο KwaiYii, ανταγωνίζεται το OpenAI GPT-3.5 ως προς την ικανότητά της για δημιουργία περιεχομένου, διαβούλευση και επίλυση προβλημάτων.
Το LLM περιγράφεται λεπτομερώς στη σελίδα GitHub του KwaiYii. Η κύρια εφαρμογή για το chatbot τεχνητής νοημοσύνης του Kuaishou ήταν η αναζήτηση, χρησιμοποιώντας πρωτότυπο περιεχόμενο από την πλατφόρμα για την αντιμετώπιση «παραισθήσεων» AI – ανακρίβειες που προκύπτουν από ανεπαρκή εκπαίδευση δεδομένων.
SpikeGPT: Ένα άλμα στην ενεργειακή απόδοση
Ο Kuaishou τοποθετείται ως σημαντική δύναμη στο Έρευνα και ανάπτυξη τεχνητής νοημοσύνης, τόσο σε δημόσια κύρια προϊόντα όσο και σε έργα Έρευνας και Ανάπτυξης. Το KwaiYii είναι ένα παράδειγμα της κύριας δημόσιας τεχνητής νοημοσύνης, ενώ ο Kuaishou συζήτησε επίσης αυτή την εβδομάδα το SpikeGPT, ένα παράδειγμα των ερευνητικών προσπαθειών του για τεχνητή νοημοσύνη.
Οι υπολογιστικές απαιτήσεις. των σύγχρονων μεγάλων γλωσσικών μοντέλων (LLMs) είναι ουσιαστικά. Ωστόσο, τα Spiking Neural Networks (SNN) έχουν αναγνωριστεί ως περισσότερη ενέργεια-αποτελεσματική εναλλακτική λύση στα συμβατικά τεχνητά νευρωνικά δίκτυα, παρόλο που η αποτελεσματικότητά τους στις εργασίες δημιουργίας γλώσσας παραμένει άγνωστη.
Μια ερευνητική συνεργασία μεταξύ του Πανεπιστημίου της Καλιφόρνια και της Τεχνολογίας Kuaishou εισήγαγε το SpikeGPT (μέσω Συγχρονισμένη κριτική), η εναρκτήρια Μοντέλο γλώσσας γενετικού spiking νευρωνικού δικτύου (SNN). Αυτό το μοντέλο, με την έκδοση παραμέτρων 260M, ταιριάζει με την απόδοση βαθιά νευρωνικά δίκτυα (DNN ) διατηρώντας παράλληλα τα πλεονεκτήματα εξοικονόμησης ενέργειας των υπολογισμών που βασίζονται σε ακίδες.
Το SpikeGPT είναι ένα παραγωγικό μοντέλο γλώσσας που χαρακτηρίζεται από καθαρά δυαδικές μονάδες ενεργοποίησης αιχμής που βασίζονται σε συμβάντα. Ενσωματώνει την επανάληψη σε ένα μπλοκ μετασχηματιστή, καθιστώντας το συμβατό με SNN. Αυτή η ενοποίηση όχι μόνο εξαλείφει την τετραγωνική υπολογιστική πολυπλοκότητα, αλλά διευκολύνει επίσης την αναπαράσταση των λέξεων ως αιχμές που βασίζονται σε γεγονότα.
Το μοντέλο μπορεί να επεξεργάζεται ροή δεδομένων λέξη προς λέξη, ξεκινώντας τον υπολογισμό ακόμη και πριν από το σχηματισμό μιας πλήρους πρότασης. ενώ εξακολουθεί να συλλαμβάνει τις εξαρτήσεις μεγάλης εμβέλειας σε περίπλοκες συντακτικές δομές. Η ερευνητική ομάδα έχει επίσης ενσωματώσει διάφορες τεχνικές για τη βελτίωση της απόδοσης του SpikeGPT, όπως ένα βήμα δυαδικής ενσωμάτωσης, έναν τελεστή μετατόπισης διακριτικών και ένα RWKV βανίλιας για να αντικαταστήσει τον παραδοσιακό μηχανισμό αυτοπροσοχής.
Κατανόηση του Spiking. Νευρωνικά δίκτυα
Τα νευρωνικά δίκτυα ακίδας (SNN) είναι ένας τύπος τεχνητού νευρωνικού δικτύου που εμπνέεται από τον τρόπο που λειτουργούν οι βιολογικοί νευρώνες. Στα SNN, οι νευρώνες επικοινωνούν μεταξύ τους στέλνοντας αιχμές, οι οποίες είναι σύντομες εκρήξεις ηλεκτρικής δραστηριότητας. Οι αιχμές δεν είναι συνεχείς, αλλά μάλλον εμφανίζονται σε διακριτά χρονικά διαστήματα. Αυτό έρχεται σε αντίθεση με τα παραδοσιακά τεχνητά νευρωνικά δίκτυα, τα οποία χρησιμοποιούν συνεχείς τιμές για να αναπαραστήσουν την ενεργοποίηση των νευρώνων.
Τα SNN έχουν πολλά πιθανά πλεονεκτήματα σε σχέση με τα παραδοσιακά τεχνητά νευρωνικά δίκτυα. Πρώτον, είναι πιο ενεργειακά αποδοτικά. Αυτό συμβαίνει επειδή οι αιχμές αποστέλλονται μόνο όταν είναι απαραίτητο, και όχι συνεχώς. Δεύτερον, τα SNN είναι πιο ρεαλιστικά βιολογικά. Αυτό τα καθιστά μια καλή επιλογή για εφαρμογές που απαιτούν υψηλό βαθμό ρεαλισμού, όπως η ρομποτική και η ιατρική απεικόνιση.
Ωστόσο, τα SNN έχουν επίσης ορισμένες προκλήσεις. Μια πρόκληση είναι ότι είναι πιο δύσκολο να εκπαιδευτούν από τα παραδοσιακά τεχνητά νευρωνικά δίκτυα. Αυτό οφείλεται στο γεγονός ότι οι αιχμές είναι διακριτά συμβάντα, γεγονός που καθιστά δύσκολη την αναδρομική μετάδοση του σφάλματος μέσω του δικτύου. Μια άλλη πρόκληση είναι ότι τα SNN δεν είναι τόσο καλά κατανοητά όσο τα παραδοσιακά τεχνητά νευρωνικά δίκτυα. Αυτό καθιστά δύσκολο τον σχεδιασμό και τη βελτιστοποίηση SNN για συγκεκριμένες εργασίες.
Πώς αποδίδει το SpikeGPT
Σε μια εμπειρική μελέτη, το SpikeGPT εκπαιδεύτηκε με τρεις διαφορετικές κλίμακες παραμέτρων (παράμετροι 45M, 125M και 260M) και έγινε σύγκριση με τις βασικές γραμμές μετασχηματιστή όπως Reformer, Synthesizer, Linear Transformer και Performer χρησιμοποιώντας το σύνολο δεδομένων Enwik8. Τα αποτελέσματα αποκάλυψαν ότι το SpikeGPT έδωσε συγκρίσιμα αποτελέσματα με 22 φορές λιγότερες συναπτικές λειτουργίες (SynOps).
Αυτή η έρευνα υπογραμμίζει τη δυνατότητα εκπαίδευσης μεγάλων SNN για την αξιοποίηση των εξελίξεων στους μετασχηματιστές, υποδηλώνοντας σημαντική μείωση στις υπολογιστικές απαιτήσεις των LLMs με την εφαρμογή ενεργοποιήσεων spiking βάσει συμβάντων στη δημιουργία γλώσσας. Οι ερευνητές έχουν εκφράσει την πρόθεσή τους να συνεχίσουν να βελτιώνουν το μοντέλο τους και θα ενημερώσουν ανάλογα το προεκτυπωμένο χαρτί τους. Ο κώδικας για το SpikeGPT είναι διαθέσιμος στο GitHub του έργου και στο χαρτί με λεπτομέρειες για το μοντέλο είναι προσβάσιμο στο arXiv.