Alibabaは、高品質のビジュアルを生成および編集する強力なマルチモーダルAIであるQwen VLOを発表し、グローバルAIレースの重要なエスカレーションをマークしました。 6月27日金曜日に開始された新しい「AI Creative Engine」は、単一のシステムで洗練された作成ツールを使用して高度な視覚的理解を統合することにより、GoogleやOpenaiなどの西洋の競合他社に直接挑戦します。その公式発表、アリババは、世界を理解するだけでなく、その理解に基づいて、その理解に基づいて、その理解に基づいて、大量のレクリエーションを生み出すモデルを作成するモデルを作成する動きとしてリリースを組み立てました。 GoogleがImagen 4 Image Generatorをリリースしてから数日後に発表された発売は、AIイメージ生成市場でのイノベーションの猛烈なペースを強調しています。
新しいモデルは、会社の Alibabaは、プレビューバージョンには既知の制限があることを認めましたが、モデルの安定性と堅牢性を改善するというコミットメントを述べています。この迅速で公開反復の戦略は、最新のツールをユーザーの手に直接配置することにより、市場とマインドシェアを獲得するという会社の意図を示しています。 vlo
そのコアでは、Qwen Vloは、マルチモーダルの理解を生成機能と統合する統一モデルとして設計されています。 Qwenチームの詳細によると、このモデルは革新的なプログレッシブ生成方法を採用しており、左から右、上から下まで徐々に画像を構築しています。このメカニズムは、最終的な視覚品質と一貫性を高めるだけでなく、ユーザーにより柔軟で制御可能な創造プロセスを提供するために設計されています。これにより、モデルは任意の解像度とアスペクト比で画像の生成をサポートし、固定形式の制約から作成者を解放できます。この柔軟性により、ソーシャルメディアカバーやWebバナーから高解像度のイラストやポスターまで、幅広いアプリケーションに適しています。 このモデルは、高度な指導に従う機能を示しています。芸術スタイルの転送、シーンの再構築、オブジェクトの変更など、複雑な編集タスクのオープンエンドの自然言語コマンドをサポートします。さらに、Qwen VLOは、単一の複雑な命令内で複数の操作を処理でき、マルチステップのクリエイティブタスクを一度に処理できるようにします。このモデルは、その生成能力を従来の知覚タスクに拡張し、単純な編集プロンプトを通じて深度マップ、セグメンテーションマスク、およびエッジ検出情報を生成し、AIの知覚と作成の間のギャップを効果的に橋渡しすることができます。 Alibabaからの進歩の流れ、包括的で深く統合されたAIエコシステムを構築するための明確な戦略を紹介します。この旅により、同社のモデルが純粋な理解から統一された創造に進化しました。 1月、アリババはマルチモーダルの理解に焦点を当てたQwen 2.5モデルを開始しました。 4月に、パフォーマンスとコストのバランスをとるための「ハイブリッド思考」モードなどの新しい機能を導入した大規模な言語モデルのオープンソースQWEN3ファミリーのリリースが続きました。 これらの基礎モデルは単なる研究プロジェクトではありません。彼らは、消費者向け製品の膨大なポートフォリオに積極的に注入されています。同社は以前、高度なQwenモデルを備えた中国に2億人以上のユーザーを抱えるプラットフォームであるQuark AIアシスタントをアップグレードしました。ターゲット=”_ blank”> Xinhua通信社とのインタビューで述べられています
href=”https://www.nytimes.com/2025/05/17/technology/apple-alibaba-ai-tool-china.html”ターゲット=”_ blank”>ニューヨークタイムズは、「米国は中国とのAIレースであり、アメリカ企業が中国企業を支援することを望んでいません。これらの緊張はエスカレートしており、米国産業局とセキュリティ局はさらに同時に、AIイメージ生成業界全体が、著作権をめぐる法的および倫理的な火災に取り組んでいます。ランドマークの著作権侵害訴訟では、ディズニーとユニバーサルは、AI会社Midjourneyが象徴的なキャラクターでモデルを違法にトレーニングしたと非難しました。ディズニーの一般的な弁護人として