Tim Qwen Alibaba telah meluncurkan QWEN3-VL, seri model visi-bahasa yang paling kuat hingga saat ini.
Dirilis pada 23 September, andalan ini adalah model besar 235 miliar-parameter yang tersedia secara bebas untuk pengembang di seluruh dunia. Ukurannya yang besar (471 GB) menjadikannya alat untuk tim yang beralasan dengan baik.
AI open-source secara langsung menantang sistem tertutup teratas seperti Google Gemini 2.5 Pro dengan keterampilan baru yang canggih.
Ini termasuk bertindak sebagai”agen visual”untuk mengontrol aplikasi dan memahami video berjam-jam. The release is a key move in Alibaba’s strategy to lead the open-source AI field.
This launch is not an isolated event but the latest salvo in Alibaba’s aggressive campaign to dominate the open-source AI landscape.
In recent months, the company has released a flurry of powerful models for reasoning, coding, and image generation, assembling a comprehensive, open alternative to the proprietary Tumpukan saingan Baratnya.
dari persepsi ke tindakan: agen visual baru
href=”https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list”target=”_ blank”> inovasi kunci di Qwen3-vl Kunci inovasi di Qwen3-vl
Ini dapat mengenali elemen di layar, memahami fungsinya, dan menjalankan tugas secara mandiri.
Ini mengubah model dari pengamat pasif menjadi peserta aktif di lingkungan digital. Aplikasi potensial berkisar dari mengotomatisasi tugas perangkat lunak berulang dan membantu pengguna dengan alur kerja yang kompleks untuk membuat alat aksesibilitas yang lebih intuitif untuk menavigasi aplikasi.
Utilitas praktis model semakin ditingkatkan oleh jendela konteksnya yang masif. Ini secara asli mendukung 256.000 token, dapat diperluas hingga satu juta.
Ini memungkinkan pengguna untuk memberi makan model seluruh film panjang fitur dan kemudian mengajukan pertanyaan spesifik tentang poin plot atau penampilan karakter, yang dapat ditentukan oleh model ke dalam dan
di bawah tudung: sebuah arsitektur yang ditingkatkan. Kemampuan ditenagai oleh perbaikan arsitektur yang signifikan yang dirancang untuk mendorong batas-batas pemahaman visual dan temporal.
Tim Qwen memperkenalkan tiga pembaruan inti untuk meningkatkan kinerjanya, terutama dengan video formulir panjang dan detail visual yang halus, seperti
Akhirnya, tim meningkatkan pemodelan temporal videonya dari T-Rope ke mekanisme “Text-Simestamp Alignment”. Sistem ini menggunakan format input jadwal waktu dan bingkai video yang diselingi, memungkinkan penyelarasan level bingkai yang tepat antara data temporal dan konten visual. Ini secara substansial meningkatkan kemampuan model untuk melokalisasi peristiwa dan tindakan dalam urutan video yang kompleks.
Rilis ini adalah yang terbaru dalam serangan AI yang cepat dan disengaja dari Alibaba. Perusahaan baru-baru ini meluncurkan model sumber terbuka yang kuat untuk penalaran canggih dan pembuatan gambar kesetiaan tinggi. Langkah ini juga memperkuat pivot strategis dari mode’pemikiran hibrida’dari model sebelumnya, yang mengharuskan pengembang untuk beralih di antara mode.
Pergeseran untuk memisahkan, model khusus untuk pengembangan instruksi dan penalaran yang mendalam dengan fokus yang kuat. Gambit open-source di bidang khusus
Qwen3-VL memasuki bidang kompetitif yang semakin berputar dari skala monolitik, dan lebih sering membuat sistem yang lebih baik, yang lebih baik, yang semakin besar, membuat sistem pelatihan yang lebih baik, menghasilkan pengembalian yang semakin besar, merupakan pengembalian yang semakin besar, sebuah pengembaraan yang semakin besar, sebuah pengembaraan yang semakin baik, sebuah pengembaraan yang semakin besar, sebuah pengembaraan yang semakin besar, pengembalian gerakan yang semakin besar, dominasi.
Pilihan strategis ini menempatkan QWEN3-VL dalam bidang beragam alat khusus. Lapangan ini dengan cepat diversifikasi, dengan model-model seperti Microsoft Florence-2 juga mengejar pendekatan yang bersatu dan berbasis prompt untuk menangani beberapa tugas penglihatan seperti captioning dan deteksi objek dalam satu arsitektur kohesif.
Salah satu ceruk kunci adalah kinerja real-time pada perangkat keras terbatas, yang dicontohkan oleh Roboflow RF-Detrow. Model ringan ini dioptimalkan untuk deteksi objek pada perangkat tepi, memprioritaskan latensi rendah dan responsif di atas penalaran interpretatif dari sistem yang lebih besar.
Mencapai ini dengan merampingkan arsitektur detr yang kompleks untuk penyebaran praktis dan langsung dalam prioritas robotika dan kamera yang cerdas.
Sebaliknya, model leksibilitas lain dan pengaksaran penelitian lainnya. Visi AYA Cohere, misalnya, adalah model dengan berat terbuka yang dirancang khusus untuk memajukan penelitian AI multibahasa dan multimodal, menyoroti fokusnya pada pemberdayaan proyek akademik dan yang berfokus pada aksesibilitas.
Mungkin tantangan paling radikal untuk paradigma penskalaan berasal dari inovasi arsitektur fundamental. Para peneliti baru-baru ini meluncurkan Jaringan Saraf All-Topografis (All-TNN), sebuah model yang meniru struktur otak manusia untuk efisiensi energi yang unggul.
Ini menghindari”berbagi berat”yang umum di AI konvensional, sebaliknya menggunakan”kelancaran kendala”ini untuk mendorong neuron buatan tetangga untuk mempelajari fitur-fitur yang sama.
p> dari bias-warga ini. Coauthor Zejin Lu menjelaskan konsep tersebut: “Untuk manusia, ketika Anda mendeteksi benda-benda tertentu, mereka memiliki posisi yang khas. Anda sudah tahu sepatu biasanya di bagian bawah, di tanah. Pesawat, itu ada di atas.”
Model mempelajari aturan kontekstual ini, berkorelasi tiga kali lebih kuat dengan visi manusia daripada standar href=”https://en.wikipedia.org/wiki/convolutional_neural_network”target=”_ blank”> Convolutional Neural Network (CNN) .
Perilaku seperti sepuluh manusia ini lebih rendah: akurasi mentahnya lebih rendah dari CNN tradisional, tetapi CNN tradisional ini datang dengan terlalu banyak. Ini menjadikannya alternatif yang menarik untuk perangkat tepi berdaya rendah di mana efisiensi adalah yang terpenting, membuktikan bahwa desain yang elegan bisa lebih efektif daripada perhitungan brute-force.
Dengan merilis model visi yang kuat, terbuka, dan khusus, Alibaba bertaruh