Das QWEN-Team von Alibaba hat QWEN3-VL gestartet, die bisher mächtigste Visionsprachelserie. Die große Größe (471 GB) macht es zu einem Werkzeug für gut ausgestattete Teams. src=”Daten: Bild/SVG+XML; Nitro-Treppy-ID=Mty0nzoxnjcw-1; Base64, Phn2zyb2AWV3QM94psiwidagmti4mca3mj Aiihdpzhropsixmjgwiibozwlnahq9ijcymcig1sbnm9imH0DHA6LY93D3CUDZMUB3JNLZIWMDAVC3ZNIJ48L3N2zz4=”>

Dazu gehören als „visuelles Agent“ zur Steuerung von Apps und zum Verstehen stundenlanger Videos. Die Veröffentlichung ist ein wesentlicher Schritt in Alibabas Strategie, um das Open-Source-AI-Feld zu leiten. Stapel seiner westlichen Rivalen. behauptet, seine Leistung sei auf dem neuesten Stand der Technik.”Die Anweisungsversion entspricht oder übertrifft sogar Gemini 2.5 Pro in den wichtigsten visuellen Wahrnehmungsbenchmarks. Die Denkversion erzielt hochmoderne Ergebnisse in vielen multimodalen Begründungsbenchmarks”, erklärte das Team in seiner Ankündigung. href=”https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-Advancement-list”target=”_ Blanko-Blanko-Fähigkeit in qwen3-vl its”visual aggous. Diese Funktion bewegt sich über die einfache Bilderkennung hinaus und ermöglicht es dem Modell, Computer-und mobile grafische Benutzeroberflächen (GUIs) zu bedienen. Potenzielle Anwendungen reichen von der Automatisierung von Wiederholungssoftware-Aufgaben über die Unterstützung von Benutzern mit komplexen Workflows bis hin zum Erstellen von intuitiveren Zugänglichkeitstools für Navigationsanwendungen. Es unterstützt nativ 256.000 Token, erweiterbar auf eine Million. Die Fähigkeiten werden durch eine signifikante architektonische Überarbeitung angetrieben, die die Grenzen des visuellen und zeitlichen Verständnisses überschreiten soll. Papier .

Erstens verwendet das Modell”Interleaved-Mrope”, eine robustere Positionscodierungsmethode. Dies ersetzt den vorherigen Ansatz, bei dem zeitliche Informationen auf hochfrequente Dimensionen konzentriert waren. Die neue Technik verteilt Zeit-, Höhen-und Breitendaten über alle Frequenzen hinweg und verbessert das Langzeitverständnis erheblich, während das Bildverständnis aufrechterhalten wird. Anstatt visuelle Token in eine einzige Ebene des Sprachmodells injizieren, injiziert Deepstack sie über mehrere Ebenen hinweg. Dies ermöglicht eine feiner körnige Verschmelzung von Merkmalen auf mehreren Ebenen aus dem Vision Transformator (VIT), wodurch die Genauigkeit der Textbildausrichtung des Modells geschärft wird. Dieses System verwendet ein verschachteltes Eingangsformat von Zeitstempeln und Videorahmen, wodurch eine präzise Ausrichtung auf Frame-Ebene zwischen zeitlichen Daten und visuellen Inhalten ermöglicht wird. Dies stärkt die Fähigkeit des Modells, Ereignisse und Aktionen in komplexen Videosequenzen zu lokalisieren. src=”Daten: Bild/SVG+XML; Nitro-Treppy-ID=Mty1NDoxnji0-1; Base64, Phn2ZyB2AWV3QM94psiwidagmti4McaxotExii B3AWR0AD0IMTI4MCIGAGVPZ2H0PSIXOTEXIIB4BWXUCZ0IAHR0CDOVL3D3DY53MY5VCMCVMJAWMC9ZDMCIPJWVC3ZNPG==”>

Diese Veröffentlichung ist die neueste in einer schnellen und absichtlichen AI-Offensive von Alibaba. Das Unternehmen hat kürzlich leistungsstarke Open-Source-Modelle für fortschrittliche Argumentation und Bildung von High-Fidelity-Image gestartet. Dieser Schritt festigt auch einen strategischen Drehpunkt von der Modelle „Hybriddenken“ früherer Modelle, bei denen Entwickler zwischen den Modi umschalten mussten. Open-Source-Gambit in einem spezialisierten Feld

qwen3-vl tritt in ein Wettbewerbsfeld ein, das zunehmend von der monolithischen Skala entfernt ist, ist alles, was Sie brauchen”Philosophie”. Dominanz.

Diese strategische Wahl legt Qwen3-VL in ein vielfältiges Gebiet spezialisierter Tools. Das Feld diversifiziert sich schnell, wobei Modelle wie Florence-2 von Microsoft auch einen einheitlichen, prompten basierten Ansatz verfolgen, um mehrere Visionsaufgaben wie Bildunterschriften und Objekterkennung in einer einzigen, kohärenten Architektur zu erledigen. Dieses leichte Modell ist für die Objekterkennung auf Kantengeräten optimiert und priorisiert eine geringe Latenz und Reaktionsfähigkeit gegenüber dem interpretativen Denken größerer Systeme. Die AYA-Vision von Cohere ist beispielsweise ein offenes Modell, das speziell zur Fortschritt der mehrsprachigen und multimodalen KI-Forschung entwickelt wurde und deren Fokus auf die Stärkung von akademischen und barrierefreien fokussierten Projekten hervorhebt. Die Forscher haben kürzlich das All-Topography Neural Network (All-TNN) vorgestellt, ein Modell, das die Struktur des menschlichen Gehirns für überlegene Energieeffizienz nachahmt. Daten. Co-Autor Zejin Lu erklärte das Konzept: „Für den Menschen, wenn Sie bestimmte Objekte erkennen, haben sie eine typische Position. Sie wissen bereits, dass die Schuhe normalerweise am Boden vor Ort sind. Das Flugzeug, es ist oben. href=”https://en.wikipedia.org/wiki/convolutional_neural_network”target=”_ bloße”> Konvolutional Neural Network (CNN) . Dies macht es zu einer überzeugenden Alternative für Geräte mit geringer Leistung, bei denen die Effizienz von größter Bedeutung ist, und zeigt, dass elegantes Design effektiver sein kann als die Berechnung der Brute-Force-Berechnung.

Categories: IT Info