Η ομάδα QWEN της Alibaba ξεκίνησε το QWEN3-VL, την πιο ισχυρή σειρά μοντέλων της όρασης μέχρι σήμερα.
που κυκλοφόρησε στις 23 Σεπτεμβρίου, η ναυαρχίδα είναι ένα τεράστιο μοντέλο παράμετρος 235 δισ. Το μεγάλο του μέγεθος (471 GB) το καθιστά ένα εργαλείο για ομάδες με καλά πόρους.
Το ανοιχτό κώδικα AI αμφισβητεί άμεσα τα κορυφαία κλειστά συστήματα όπως το Google Gemini 2.5 Pro με προηγμένες νέες δεξιότητες. Src=”Δεδομένα: εικόνα/svg+xml; nitro-empty-id=mty0nzoxnjcw-1, base64, phn2zyb2awv3qm94psiwidagmti4mca3mj Aiihdpzhropsixmjgwiibozwlnahq9ijcymcigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>>
Αυτές περιλαμβάνουν ενεργώντας ως”οπτικός πράκτορας”για τον έλεγχο των εφαρμογών και την κατανόηση των ωρών βίντεο. Η απελευθέρωση είναι μια βασική κίνηση στη στρατηγική της Alibaba για να οδηγήσει το πεδίο AI ανοιχτού κώδικα. Οι στοίβες των δυτικών αντιπάλων του. Η ομάδα ισχυρίζεται ότι η απόδοσή της είναι state-of-the-art.”Η έκδοση των διδασκαλιών ταιριάζει ή ακόμη και υπερβαίνει τους δείκτες Gemini 2,5 Pro σε σημαντικά σημεία αναφοράς οπτικής αντίληψης. href=”https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list”target=”. Αυτό το χαρακτηριστικό κινείται πέρα από την απλή αναγνώριση εικόνας, επιτρέποντας στο μοντέλο να λειτουργούν οι γραφικές διεπαφές χρήστη υπολογιστή και κινητής τηλεφωνίας (GUIs). Οι πιθανές εφαρμογές κυμαίνονται από την αυτοματοποίηση των επαναλαμβανόμενων εργασιών λογισμικού και την παροχή βοήθειας στους χρήστες με σύνθετες ροές εργασίας στη δημιουργία πιο διαισθητικών εργαλείων προσβασιμότητας για την πλοήγηση σε εφαρμογές. Υποστηρίζει εγγενώς 256.000 μάρκες, επεκτάσιμα μέχρι ένα εκατομμύριο.
Οι νέες δυνατότητες του QWEN3-VL τροφοδοτούνται από μια σημαντική αρχιτεκτονική αναθεώρηση που έχει σχεδιαστεί για να προωθήσει τα όρια της οπτικής και χρονικής κατανόησης. Target=”_ Blank”> Λεπτομερής στο τεχνικό του έγγραφο
Πρώτον, το μοντέλο χρησιμοποιεί το”Interleved-Mrope”, μια πιο ισχυρή μέθοδο κωδικοποίησης θέσης. Αυτό αντικαθιστά την προηγούμενη προσέγγιση όπου οι χρονικές πληροφορίες συγκεντρώθηκαν σε διαστάσεις υψηλής συχνότητας. Η νέα τεχνική διανέμει δεδομένα χρόνου, ύψους και πλάτους σε όλες τις συχνότητες, βελτιώνοντας σημαντικά την κατανόηση του μακρού Video, διατηρώντας παράλληλα την κατανόηση της εικόνας. Αντί να εισάγουν οπτικά μάρκες σε ένα μόνο στρώμα του μοντέλου γλώσσας, το DeepStack τους εισάγει σε πολλαπλά στρώματα. Αυτό επιτρέπει μια λεπτότερη σύντηξη χαρακτηριστικών πολλαπλών επιπέδων από τον μετασχηματιστή όρασης (VIT), ακονίζοντας την ακρίβεια ευθυγράμμισης κειμένου-εικόνας του μοντέλου. Αυτό το σύστημα χρησιμοποιεί μια διαστρεβλωμένη μορφή εισόδου των χρονικών σκαφών και πλαισίων βίντεο, επιτρέποντας την ακριβή ευθυγράμμιση σε επίπεδο πλαισίου μεταξύ των χρονικών δεδομένων και του οπτικού περιεχομένου. Αυτό ενισχύει σημαντικά την ικανότητα του μοντέλου να εντοπίζει τα γεγονότα και τις ενέργειες σε σύνθετες ακολουθίες βίντεο. Src=”Δεδομένα: εικόνα/svg+xml, nitro-empty-id=mty1ndoxnji0-1, base64, phn2zyb2awv3qm94psiwidagmti4mcaxotexii B3AWR0AD0IMTI4MCIGAGVPZ2H0PSIXOTEXIIB4BWXUCZ0IAHR0CDOVL3D3DY53MY5VCMCVMJAWMC9ZDMCIPJWVC3ZNPG==”>
Αυτή η έκδοση είναι το τελευταίο σε μια ταχεία και σκόπιμη επίθεση AI από την Alibaba. Η εταιρεία ξεκίνησε πρόσφατα ισχυρά μοντέλα ανοιχτού κώδικα για προχωρημένη συλλογιστική και δημιουργία εικόνων υψηλής πιστότητας. Αυτή η κίνηση εδραιώνει επίσης έναν στρατηγικό άξονα μακριά από τον τρόπο «υβριδίου σκέψης» των προηγούμενων μοντέλων, οι οποίοι απαιτούσαν από τους προγραμματιστές να εναλλάσσονται μεταξύ των τρόπων υψηλής ποιότητας. Το Gambit ανοιχτού κώδικα σε ένα εξειδικευμένο πεδίο
Το QWEN3-VL εισέρχεται σε έναν ανταγωνιστικό τομέα που αυξάνεται όλο και περισσότερο από το μονολιθικό”Η κλίμακα είναι το μόνο που σχεδιάζετε”. Η κυριαρχία.
Αυτή η στρατηγική επιλογή τοποθετεί το QWEN3-VL μέσα σε ένα διαφορετικό πεδίο εξειδικευμένων εργαλείων. Το πεδίο διαφοροποιείται ταχέως, με μοντέλα όπως η Φλωρεντία-2 της Microsoft που επιδιώκει επίσης μια ενοποιημένη, προχωρημένη προσέγγιση για την αντιμετώπιση πολλαπλών εργασιών όρασης, όπως η ανίχνευση αντικειμένων και η ανίχνευση αντικειμένων μέσα σε μια ενιαία, συνεκτική αρχιτεκτονική. Αυτό το ελαφρύ μοντέλο βελτιστοποιείται για την ανίχνευση αντικειμένων στις συσκευές άκρων, δίνοντας προτεραιότητα στη χαμηλή καθυστέρηση και την ανταπόκριση σε σχέση με την ερμηνευτική συλλογιστική των μεγαλύτερων συστημάτων. Το όραμα AYA της Cohere, για παράδειγμα, είναι ένα μοντέλο ανοιχτού βάρους που σχεδιάστηκε ειδικά για την προώθηση της πολυγλωσσικής και πολυτροπικής έρευνας AI, υπογραμμίζοντας την εστίασή του στην ενδυνάμωση των ακαδημαϊκών και των έργων που επικεντρώνονται στην προσβασιμότητα. Οι ερευνητές παρουσίασαν πρόσφατα το All-Topographic Neural Network (ALL-TNN), ένα μοντέλο που μιμείται τη δομή του ανθρώπινου εγκεφάλου για ανώτερη ενεργειακή απόδοση. Ο συνάδελφος Zejin Lu εξήγησε την ιδέα:”Για τους ανθρώπους, όταν ανιχνεύετε ορισμένα αντικείμενα, έχουν μια τυπική θέση. Γνωρίζετε ήδη ότι τα παπούτσια είναι συνήθως στο κάτω μέρος, στο έδαφος. href=”https://en.wikipedia.org/wiki/convolutional_neural_network”target=”_ blank”> Το συνολικό νευρωνικό δίκτυο (CNN)
Αυτό καθιστά μια συναρπαστική εναλλακτική λύση για τις συσκευές άκρων χαμηλής ισχύος όπου η απόδοση είναι υψίστης σημασίας, αποδεικνύοντας ότι ο κομψός σχεδιασμός μπορεί να είναι πιο αποτελεσματικός από τον υπολογισμό της βίαιης δύναμης.