Το
Ollama ξεκίνησε μια σημαντική ενημέρωση στην τοπική πλατφόρμα AI, εισάγοντας έναν ιδιόκτητο κινητήρα που έχει σχεδιαστεί για να ενισχύσει την υποστήριξη πολλαπλών μοντέλων. Αυτή η εξέλιξη σηματοδοτεί μια στρατηγική μετατόπιση από την προηγούμενη εξάρτησή της από το πλαίσιο LLAMA.CPP. Ο νέος κινητήρας στοχεύει να προσφέρει βελτιωμένη απόδοση, αξιοπιστία και ακρίβεια για τους χρήστες που εκτελούν μοντέλα AI που ερμηνεύουν τόσο το κείμενο όσο και τις εικόνες απευθείας στο δικό τους υλικό, όπως περιγράφεται λεπτομερώς στο Ο πρωταρχικός στόχος του νέου κινητήρα , όπως εξήγησε ο Ollama, είναι να χειριστεί καλύτερα την αυξανόμενη πολυπλοκότητα των πολυτροπικών συστημάτων, τα οποία συνδυάζουν διαφορετικούς τύπους δεδομένων. Αυτή η πρωτοβουλία επιδιώκει να παρέχει ένα πιο σταθερό και αποτελεσματικό θεμέλιο για τα τρέχοντα μοντέλα όρασης-όπως το LLAMA 4 της Meta, το Gemma 3 της Google, το QWEN 2,5 VL της Alibaba και το Mistral Small 3,1 και ανοίγει το δρόμο για μελλοντικές δυνατότητες. Αυτές περιλαμβάνουν την επεξεργασία ομιλίας, την παραγωγή εικόνων και βίντεο που βασίζεται στο AI και την εκτεταμένη ολοκλήρωση εργαλείων, υπόσχεται μια πιο ισχυρή τοπική εμπειρία AI. Η απελευθέρωση σημείωσε επίσης λειτουργικές ενημερώσεις όπως η υποστήριξη εικόνων WebP. Η εταιρεία εξήγησε το σκεπτικό της, δηλώνοντας:”Καθώς περισσότερα πολυτροπικά μοντέλα απελευθερώνονται από τα μεγάλα ερευνητικά εργαστήρια, το έργο της υποστήριξης αυτών των μοντέλων με τον τρόπο που σκοπεύει ο Ollama έγινε όλο και πιο προκλητική. Η νέα αρχιτεκτονική δίνει έμφαση στο μοντέλο modularity. Σύμφωνα με τον Ollama, ο στόχος είναι να «περιορίσει την« ακτίνα έκρηξης »κάθε μοντέλου στον εαυτό του-να βελτιώσει την αξιοπιστία και να διευκολύνει τους δημιουργούς και τους προγραμματιστές να ενσωματώσουν νέα μοντέλα». Αυτός ο σχεδιασμός, με παραδείγματα διαθέσιμα σε ollama’s github repository , επιτρέπει σε κάθε μοντέλο να είναι αυτοαποκρίθηκε με το δικό του στρώμα προβολής, με αυτόν τον τρόπο απλούστευση για τους δημιουργούς μοντέλου. Οι βελτιώσεις
Ένα βασικό δόγμα του νέου κινητήρα του Ollama είναι η επιδίωξη μεγαλύτερης ακρίβειας σε τοπικό συμπέρασμα, ιδιαίτερα όταν επεξεργάζεστε μεγάλες εικόνες που μπορούν να μεταφραστούν σε σημαντικό όγκο των μαρκών. Το σύστημα ενσωματώνει τώρα πρόσθετα μεταδεδομένα κατά τη διάρκεια της επεξεργασίας εικόνας. Είναι επίσης σχεδιασμένο να διαχειρίζεται τα δεδομένα παρτίδας και θέσης με μεγαλύτερη ακρίβεια, καθώς ο Ollama υπογραμμίζει ότι η λανθασμένη διάσπαση εικόνας μπορεί να επηρεάσει αρνητικά την ποιότητα της εξόδου. Ο κινητήρας εισάγει την προσωρινή αποθήκευση εικόνας, εξασφαλίζοντας ότι μόλις υποβληθεί σε επεξεργασία μιας εικόνας, παραμένει εύκολα προσβάσιμη για επακόλουθες προτροπές χωρίς να απορριφθεί πρόωρα. Η Ollama έχει επίσης ξεδιπλώσει τις βελτιστοποιήσεις KVCache-μια τεχνική για την επιτάχυνση του μοντέλου μετασχηματιστή με το μοντέλο μετασχηματισμού από την προσωρινή αποθήκευση των καταστάσεων κλειδιών και της αξίας. Αυτή η εταιρική σχέση στοχεύει να βελτιώσει την εκτίμηση της μνήμης μέσω της ανίχνευσης μεταδεδομένων ακριβούς υλικού και περιλαμβάνει τη δοκιμή Ollama έναντι νέων εκδόσεων υλικολογισμικού. Κομψή προσοχή (ακολουθίες επεξεργασίας σε τμήματα για εξοικονόμηση μνήμης) και εξειδικευμένη περιστροφική ενσωμάτωση 2D (μέθοδος κωδικοποίησης πληροφοριών θέσης σε μετασχηματιστές). Ειδικότερα, το ίδιο το έργο LLAMA.CPP Το llama.cpp documentation Το θεμελιώδες έργο LLAMA.CPP αποτελεί σημείο συζήτησης στην κοινότητα των χρηστών. Σε ένα Hacker News Αναλύοντας την ανακοίνωση του Ollama, κάποιοι συμμετέχοντες ζήτησαν σαφήνεια σε αυτό που ήταν θεμελιωδώς νέος. Ο Golang και ο Llama.cpp έκαναν το δικό τους σε C ++. Πρόσθεσε ότι το έργο τους έγινε παράλληλα με το llama.cpp, όχι με βάση αυτό, και αναγνώρισε: «Είμαι πραγματικά ευγνώμων για το Georgi που προσελκύει μερικά πράγματα που πήραμε λάθος στην εφαρμογή μας.». Μειώνει το μέγεθος της προσωρινής μνήμης KV στο 1/6.”Αναφορά A github θέμα Για περαιτέρω πλαίσιο. Η προσωρινή προσοχή ολίσθησης παραθύρων (ISWA) είναι μια τεχνική απόδοσης για τα μοντέλα μετασχηματιστών.
Μελλοντικές δυνατότητες και ευρύτερες επιπτώσεις
Με τον νέο κινητήρα του τώρα λειτουργικό, ο Ollama θέτει τα βλέμματά του για την περαιτέρω επέκταση των δυνατοτήτων της πλατφόρμας. Ο χάρτης πορείας της εταιρείας περιλαμβάνει φιλοδοξίες να υποστηρίζουν σημαντικά μεγαλύτερα μεγέθη περιβάλλοντος, να επιτρέπουν πιο εξελιγμένες διαδικασίες συλλογιστικής μέσα στα μοντέλα και να εισάγουν το εργαλείο που καλεί με απαντήσεις ροής. Αυτές οι προγραμματισμένες βελτιώσεις στοχεύουν στην τοπική εκτέλεση μοντέλων AI πιο ευέλικτα και ισχυρά σε ένα ευρύτερο φάσμα εφαρμογών. Υποστηρίζοντας μεγαλύτερο έλεγχο του αγωγού συμπερασμάτων, ο Ollama σκοπεύει να προσφέρει μια πιο εξορθολογισμένη και αξιόπιστη πλατφόρμα τόσο για τους προγραμματιστές όσο και για τους τελικούς χρήστες που επιθυμούν να χρησιμοποιήσουν προχωρημένα μοντέλα AI για τις προσωπικές τους συσκευές υπολογιστικού ή για τη ζωή τους.