中国の技術大手アリババは、AIビデオ生成モデルの主要なオープンソースアップデートであるWAN2.2をリリースしました。 7月28日に発表されたこの新しいシリーズは、OpenaiのSoraやGoogleのVEOなどのライバルに直接挑戦します。ビデオの品質を向上させるために、高度な混合物(MOE)アーキテクチャを導入します。
このリリースには、消費者グレードGPUで720pビデオを生成する非常に効率的な5Bモデルも含まれています。この動きは、 フィールドの最初の。大規模な言語モデルで広く検証されているこの高度な設計により、推論中の計算コストが対応することなく、モデルの総容量を大幅に増加させることができます。アーキテクチャは、ビデオ生成プロセスに特化しており、複雑な除去タスクを特殊な機能に分離します。 src=”data:image/svg+xml; nitro-empty-id=mty0mtoxmjay-1; base64、phn2zyb2awv3qm94psiwidagmti4mca3nd ciihdpzhropsixmjgwiibozwlnahq9ijc0nyigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
MOEシステムは、2エクタートの設計を採用しています。 「ハイノイズ」の専門家は、ビデオの全体的なレイアウトと動きの確立に焦点を当てて、世代の初期段階を処理します。プロセスが続くにつれて、「低ノイズ」の専門家が複雑な詳細を改良し、視覚品質を向上させるために引き継いでいます。ステップ、はるかに小さなモデルの計算フットプリントを維持します。
この新しいアーキテクチャを補完するために、WAN2.2は、前身であるWAN2.1よりも65.6%多くの画像と83.2%多くのビデオを特徴とする大幅に拡張および洗練されたデータセットでトレーニングされました。チームは、照明、構成、コントラスト、色調のための詳細なラベルを備えた細心の注意を払ってキュレートしたデータを使用することにより、「映画レベルの美学」を作成することに重点を置いていました。 AlibabaのProprietory Wan-Bench 2.0。
おそらく、アクセシビリティのリリースの最も重要な部分は、新しい ti2v-5bモデル、効率的な廃止のために設計されたコンパクトな5ビリオン-パラメーターバージョンです。このハイブリッドモデルは、単一の統合フレームワーク内で、テキストからビデオへのビデオと画像間タスクの両方をネイティブにサポートします。その効率は、顕著な圧縮率を達成する新しい高圧縮vae(変分自動エンコーダー)によって促進され、高解像度のビデオ生成を非エンテルプライズハードウェアで実行可能にします。 vramの。これにより、開発者、研究者、クリエイターのはるかに幅広い聴衆に高度なAIビデオツールがもたらされます。この採用を加速するために、WAN2.2モデルは、 comfyui など、人気のあるコミュニティツールに既に統合されています。 href=”https://huggingface.co/docs/diffusers/en/index”ターゲット=”_ blank”> hugging hugging face diffusers。 OpenaiやGoogleなどの企業は、Paywalls and APIの後ろに最も高度なビデオモデルであるSoraとVeoを維持しています。この戦略は、オープンフォースモデルが閉鎖システムの競合他社になったAIイメージ生成で見られる混乱を反映しています。これは、Alibabaからの主要なAIリリースのラピッドファイアシリーズの最新の動きであり、複数のAIドメインのリーダーとしての地位を確立するための包括的な攻撃を示しています。この活動の急増は、開発者向けのオープンツールの完全なスイートを構築するための明確な戦略を示しています。
前週、同社は、主要な業界のベンチマークを上回った新しいフラッグシップ推論モデルQWEN3-Thinking-2507を発表しました。また、ソフトウェア開発タスクを自動化するための強力なエージェントコーディングモデルQWEN3-CODERを起動しました。広報担当者は、「コミュニティと話し合い、問題について振り返った後、ハイブリッド思考モードを放棄することを決定しました。現在、可能な限り最高の品質を実現するために、指示と思考モデルを個別に訓練します。」ウェアラブルはQWEN3シリーズを搭載しています。これは、ソフトウェアの腕前を具体的な消費者製品に接続することで市場の信頼を構築するように設計されています。ベンチマークの懐疑論
しかし、この積極的なプッシュは、AIベンチマークの信頼性について業界の懐疑論を成長させてきたときです。最近のQwenリリースの数日前に、研究は、Alibabaの古いQwen2.5モデルが、汚染されたトレーニングデータからの答えを記憶することにより、重要な数学テストで「cheった」と主張しました。 AIストラテジストのネイトジョーンズが述べたように、「リーダーボードの支配を目標として設定した瞬間、現実に直面したときに些細なエクササイズとヒラメのモデルを作成するリスクがあります。」この感情は、Cohere Labsの責任者であるSara Hookerのような専門家によって反響されています。彼は、「リーダーボードが生態系全体にとって重要である場合、インセンティブが整列するように整合しています。有形の機能とアクセシビリティに焦点を当てたWAN2.2リリースは、物語をリーダーボードスコアから実世界のユーティリティとオープンイノベーションにシフトする試みである可能性があります。