AlibabaのQwenチームは、これまでで最も強力なビジョン言語モデルシリーズであるQWEN3-VLを立ち上げました。
9月23日にリリースされたフラッグシップは、世界中で開発者が自由に利用できる大規模な2350億パラメーターモデルです。その大きなサイズ(471 GB)は、リソースのあるチームのためのツールです。 src=”data:image/svg+xml; nitro-empty-id=mty0nzoxnjcw-1; base64、phn2zyb23qm94psiwidagmti4mca3mj aiihdpzhropsixmjgwiibozwlnahq9ijcymcigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
これらには、アプリを制御し、何時間ものビデオを理解するための「視覚エージェント」として行動することが含まれます。このリリースは、オープンソースAIフィールドをリードするアリババの戦略の重要な動きです。
西部のライバルのスタック。そのパフォーマンスは最先端であると主張しています。 「指導バージョンは、主要な視覚認識ベンチマークでGemini 2.5 Proと一致するか、それを超えています。思考バージョンは、多くのマルチモーダル推論ベンチマークで最新の結果を達成しています」とチームは、その発表で述べました。
href=”https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list”target=”_ blank”この機能は、単純な画像認識を超えて移動し、モデルがコンピューターおよびモバイルグラフィカルユーザーインターフェイス(GUI)を操作できるようにします。
画面上の要素を認識し、機能を理解し、自律的に実行することができます。潜在的なアプリケーションは、繰り返しのソフトウェアタスクの自動化から、複雑なワークフローを使用してユーザーを支援することから、アプリケーションをナビゲートするためのより直感的なアクセシビリティツールの作成にまで及びます。
モデルの実用的なユーティリティは、その大規模なコンテキストウィンドウによってさらに強化されます。これにより、256,000のトークンをネイティブにサポートし、最大100万個のトークンをサポートします。
これにより、ユーザーはモデルにフィーチャレングスフィルム全体にフィードし、プロットポイントまたはキャラクターの外観について具体的な質問をすることができます。
QWEN3-VLの新しい機能は、視覚的および時間的理解の境界を押し広げるために設計された重要なアーキテクチャのオーバーホールを搭載しています。ターゲット=”_ blank”>その技術論文で詳細。
最初に、モデルはより堅牢な位置エンコーディング方法である「インターリーブムロープ」を採用しています。これは、時間情報が高周波寸法に集中している以前のアプローチに取って代わります。新しい手法は、すべての周波数にわたって時間、高さ、幅のデータを分配し、画像の理解を維持しながら長距離の理解を大幅に改善します。視覚トークンを言語モデルの単一層に注入する代わりに、DeepStackは複数の層にそれらを注入します。これにより、ビジョントランス(VIT)からのマルチレベルの特徴のより細かい密接な融合が可能になり、モデルのテキストイメージアライメント精度がシャープになります。
最後に、チームはビデオ時間モデリングをTropeから「テキストチメスタンプアライメント」メカニズムにアップグレードしました。このシステムは、タイムスタンプとビデオフレームのインターリーブ入力形式を使用して、時間データと視覚コンテンツの間の正確なフレームレベルのアライメントを可能にします。これにより、複雑なビデオシーケンス内でイベントとアクションをローカライズするモデルの能力が大幅に向上します。 src=”data:image/svg+xml; nitro-empty-id=mty1ndoxnji0-1; base64、phn2zyb2awv3qm94psiwidagmti4mcaxotexii B3AWR0AD0IMTI4MCIGAGVPZ2H0PSIXOTEXIIB4BWXZ0IAHR0CDOVL3D3DY53MY5VCMCVMJAWMC9ZDMCIPJWVC3ZNPG==”>
このリリースは、アリババからの迅速で意図的なAI攻撃の最新のものです。同社は最近、高度な推論と高忠実度のイメージ生成のための強力なオープンソースモデルを立ち上げました。この動きはまた、以前のモデルの「ハイブリッド思考」モードから遠ざかる戦略的ピボットを固め、開発者がモードを切り替える必要がありました。専門分野でのオープンソースのギャンビット
qwen3-vlは、モノリシックの「スケールが必要なのはすべて」哲学からますますピボットする競争フィールドに入ります。支配。フィールドは急速に多様化しており、MicrosoftのFlorence-2などのモデルは、単一のまとまりのあるアーキテクチャ内でのキャプションやオブジェクト検出などの複数のビジョンタスクを処理する統一された迅速なアプローチも追求しています。この軽量モデルは、エッジデバイスのオブジェクト検出に最適化され、より大きなシステムの解釈的推論よりも低いレイテンシと応答性を優先します。
これは、ロボット工学とスマートカメラの実用的で即時展開するための複雑なDETRアーキテクチャを合理化することにより達成します。たとえば、CohereのAYA Visionは、多言語およびマルチモーダルAIの研究を進めるために特別に設計されたオープンウェイトモデルであり、アカデミックおよびアクセシビリティに焦点を当てたプロジェクトを強化することに焦点を当てています。研究者は最近、優れたエネルギー効率のために人間の脳の構造を模倣するモデルである全トポグラフィネットワーク(All-TNN)を発表しました。共著者のZejin Luは概念を説明しました。「人間にとって、特定のオブジェクトを検出すると、典型的な位置があります。靴が通常、地面にあることをすでに知っています。飛行機は上部にあります。
モデルはこれらの文脈ルールを学び、人間の視覚と3倍強力に相関しています