イーロン マスクの人工知能ベンチャーである xAI は、マルチモーダル機能を備えた Grok チャットボットの強化で進歩を遂げています。 最新の開発者ドキュメントによると、ユーザーは間もなく画像を Grok にアップロードし、テキストベースの応答を受信できるようになります。
開発者向けドキュメントには、統合プロセスの概要を説明するサンプル Python スクリプトが含まれています。このスクリプトは、開発者が xAI ソフトウェア開発キット (SDK) を使用してテキストと画像の両方の入力を処理する方法を示します。このスクリプトでは、画像ファイルの読み取り、テキスト プロンプトの設定、xAI SDK を使用した応答の生成の詳細な手順が説明されており、より洗練されたインタラクション方法への移行が示されています。
進化版と以前のバージョン
strong>
Grok は 2023 年 11 月に初めて利用可能になり、X Premium Plus サービスの加入者がアクセスできるようになりました。最新版の Grok 1.5 は 3 月にリリースされ、推論機能が強化されました。このモデルは、2023 年の第 3 四半期までのインターネット上のさまざまなテキスト データでトレーニングされ、人間のレビュー担当者によって厳選されたデータセットによって補完されています。特に注目すべきは、Grok-1 は X (旧 Twitter) からのデータでトレーニングされていないにもかかわらず、プラットフォーム上の公開投稿にリアルタイムでアクセスできることです。
競争上の地位と将来の展開
3 月にイーロン マスクによって設立2023 年現在、xAI は AI 分野では比較的新しいプレーヤーであり、OpenAI の ChatGPT などの確立されたエンティティと競合しています。 xAI は、その新参者であるにもかかわらず、Grok 1.5 は学術的な競争の問題を含むさまざまなベンチマークにわたって OpenAI の GPT-4 とのパフォーマンスの差を縮めていると主張しています。ただし、大規模な言語モデルのベンチマークは、トレーニング セットにテスト データが含まれる可能性があるため精査に直面することが多く、パフォーマンスの結果に影響を与える可能性があることを考慮することが重要です。
さまざまなドメインのマルチモーダル モデル >
先月のブログ投稿では、Grok-1.5V が「マルチモーダル モデル」を提供することが示されています開発者ドキュメントの最近の更新は、新しいモデルのリリースに向けた進展を示唆しています。このモデルは、2023 年第 3 四半期までに公開されているインターネット ソースと人間の専門家によってレビューされたデータセットからのさまざまなテキスト データでトレーニングされています。Grok も
Google I/O の最近の発表や OpenAI のリリースにより、マルチモーダル会話型チャットボットの開発は AI テクノロジーの大幅な進歩とみなされています。 GPT-4o、Grok には以前はマルチモーダル機能がなかったため、競争上不利な立場にありました。進行中のアップデートは、このギャップを埋め、Grok の機能を強化することを目的としています。