中国の技術大手アリババは、AIイメージジェネレーションレースをエスカレートし、8月4日にAIの最も厳しい課題の1つに優れている強力な新しいオープンソースモデルをリリースしました。

許容Apache 2.0ライセンスの下でリリースされたこのモデルは、GoogleとOpenaiから独自の西洋システムに直接挑戦します。これは、開発者に、複雑なテキストを視覚的な作成とシームレスに統合し、生成モデルの長年のハードルを提供する無料の強力な代替手段を提供することを目的としています。画像

qwen-imageは、マルモダル拡散トランスの上に構築された20億パラメーター基礎モデルです。複雑なユーザープロンプトを解釈するために、凍結したQWEN2.5-VL Vision-Languageモデルをその条件エンコーダーとして活用します。これは、言語と視覚データを調整することをすでに上手くモデルを活用する設計選択です。このモデルは、「カリキュラム学習」アプローチを使用して訓練されました。徐々にスケーリングして複雑なパラグラフレベルの説明を処理する前に、基本的な非テキストレンダリングから始めました。

この方法は、特に中国のような分野の言語に挑戦するために、ネイティブテキストレンダリング能力を強化するために重要でした。まれなキャラクターと多様なフォントの取り扱いをさらに改善するために、チームはマルチステージデータ合成パイプラインを開発して、高品質でテキストが豊富なトレーニング画像を生成しました。変更を加えるために、システムは入力画像を2つの方法で処理します。QWEN2.5-VLは高レベルのセマンティック機能を抽出しますが、バリエーションオートエンコーダー(VAE)は、公式テクニカルレポート。 VAE自体は、PDFやポスターなどのテキストが多い文書のコーパスで特別に微調整されており、細かい詳細と小さなテキストの再構築を研ぎ澄ましました。ロングテキストベンチや新しい中国語のベンチマークなどのテキスト中心の評価に優れており、クリエイターが「重要なマージン」と呼ぶものよりも既存のモデルよりも優れています。このパフォーマンスは、主要な独自のシステムへの強力なオープンソースチャレンジャーとして位置付けられています。このモデルは、幅広い芸術スタイルをサポートする強力なクロスベンチマークパフォーマンスを示しています。その公式発表で紹介されているように、それは創造的なプロンプトに流動的に適応し、写真地球主義のシーンや印象派の絵画からアニムエスティックスとアニムエスティックスとミニマリストデザインまですべてを生み出すことができます。簡単な調整をはるかに超える高度な操作を有効にします。テクニカルレポートは、モデルがスタイルの転送、オブジェクトの挿入または除去、さらには複雑な人間のポーズ操作さえも、マデルをアプアーで処理することを示しています。定性的比較では、Qwen-Imageは、ポーズ変更中に髪の毛のような細部を維持し、以前はあいまいだった衣服の詳細を正しく行い、コンテキストの洗練された理解を示しています。 Qwenチームは、モデルが単純な編集プロンプトを通じて一連のイメージ理解タスクを実行できることを示しています。これらには、オブジェクトの検出、セマンティックセグメンテーション、深さとエッジ(キャニー)推定、および新しいビューの合成が含まれます。これらの知覚タスクをインテリジェントな画像編集の形式としてフレーミングすることにより、Alibabaはそれを作成する世界とAIを見るAIの間のギャップを効果的に埋めています。これは、Alibabaからの主要なAIリリースのラピッドファイアシリーズの最新の動きであり、開発者向けのオープンツールの完全なスイートを構築し、オープンソースエコシステムを支配する包括的な戦略を示しています。これには、強力なエージェントコーディングモデルであるQWEN3-CODERが伴いました。広報担当者は、「コミュニティと話し合い、問題について振り返った後、ハイブリッド思考モードを放棄することを決定しました。最高の品質を実現するために、指示と思考モデルを個別にトレーニングします」と述べ、最近、AIの大きな発電モデルへの主要なオープンソースの更新であるWAN2.2、WAN2.2が最近発売されました。このリリースは、ビデオの品質と効率を向上させるために、高度な混合物(MOE)アーキテクチャを導入しました。わずか数週間前、Alibabaの古いQWEN2.5モデルは、汚染されたトレーニングデータからの回答を記憶することにより、重要な数学テストで「cheった」と主張しました。 AIストラテジストのネイトジョーンズが述べたように、「リーダーボードの支配を目標として設定した瞬間、現実に直面したときに些細なエクササイズとヒラメのモデルを作成するリスクがあります。」この感情は、Cohere Labsの責任者であるSara Hookerのような専門家によって反響されています。彼は、「リーダーボードが生態系全体にとって重要である場合、インセンティブが整列するように整合しています。」 href=”https://huggingface.co/qwen/qwen-image”ターゲット=”_ blank”>現実世界のユーティリティとオープンイノベーション。それは競争をエスカレートし、オープンなエコシステムがより速いイノベーションとより広い採用を促進するという賭けを反映しています。

Categories: IT Info