Alibaba melepaskan qwen3-vl open-source vision bahasa AI Model Series

Tim Qwen Alibaba telah meluncurkan QWEN3-VL, seri model visi-bahasa yang paling kuat hingga saat ini.

Dirilis pada 23 September, andalan ini adalah model besar 235 miliar-parameter yang tersedia secara bebas untuk pengembang di seluruh dunia. Ukurannya yang besar (471 GB) menjadikannya alat untuk tim yang beralasan dengan baik.

AI open-source secara langsung menantang sistem tertutup teratas seperti Google Gemini 2.5 Pro dengan keterampilan baru yang canggih.

Ini termasuk bertindak sebagai”agen visual”untuk mengontrol aplikasi dan memahami video berjam-jam. The release is a key move in Alibaba’s strategy to lead the open-source AI field.

This launch is not an isolated event but the latest salvo in Alibaba’s aggressive campaign to dominate the open-source AI landscape.

In recent months, the company has released a flurry of powerful models for reasoning, coding, and image generation, assembling a comprehensive, open alternative to the proprietary Tumpukan saingan Baratnya.

dari persepsi ke tindakan: agen visual baru

href=”https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list”target=”_ blank”> inovasi kunci di Qwen3-vl Kunci inovasi di Qwen3-vl

Ini dapat mengenali elemen di layar, memahami fungsinya, dan menjalankan tugas secara mandiri.

Ini mengubah model dari pengamat pasif menjadi peserta aktif di lingkungan digital. Aplikasi potensial berkisar dari mengotomatisasi tugas perangkat lunak berulang dan membantu pengguna dengan alur kerja yang kompleks untuk membuat alat aksesibilitas yang lebih intuitif untuk menavigasi aplikasi.

Utilitas praktis model semakin ditingkatkan oleh jendela konteksnya yang masif. Ini secara asli mendukung 256.000 token, dapat diperluas hingga satu juta.

Ini memungkinkan pengguna untuk memberi makan model seluruh film panjang fitur dan kemudian mengajukan pertanyaan spesifik tentang poin plot atau penampilan karakter, yang dapat ditentukan oleh model ke dalam dan

di bawah tudung: sebuah arsitektur yang ditingkatkan. Kemampuan ditenagai oleh perbaikan arsitektur yang signifikan yang dirancang untuk mendorong batas-batas pemahaman visual dan temporal.
Tim Qwen memperkenalkan tiga pembaruan inti untuk meningkatkan kinerjanya, terutama dengan video formulir panjang dan detail visual yang halus, seperti

Perilaku seperti sepuluh manusia ini lebih rendah: akurasi mentahnya lebih rendah dari CNN tradisional, tetapi CNN tradisional ini datang dengan terlalu banyak. Ini menjadikannya alternatif yang menarik untuk perangkat tepi berdaya rendah di mana efisiensi adalah yang terpenting, membuktikan bahwa desain yang elegan bisa lebih efektif daripada perhitungan brute-force.

Alibaba melepaskan qwen3-vl open-source vision bahasa AI Model Series

Published by All Things Windows on September 24, 2025

dari persepsi ke tindakan: agen visual baru

IT Info

Tanggal rilis koleksi figur prismatik sudah dekat

IT Info

Avengers: Secret Wars’2027 tanggal rilis akhirnya resmi

IT Info

Daftar kode showdown tak terkalahkan, cara menebus, dan memperbaiki

Alibaba melepaskan qwen3-vl open-source vision bahasa AI Model Series

Published by All Things Windows on September 24, 2025

Related Posts