Cohere for AI (カナダ企業 Cohere の研究部門) は、多言語言語モデルの新しいシリーズである Aya 23 を発表しました。これらの新しいモデルは、80 億および 350 億のパラメータ バージョンで利用可能で、多様な範囲にわたる人間の言語の理解と生成を強化することを目的としています。言語の。モデルのオープンウェイトにアクセスできるようになり、研究者が特定のニーズに合わせてモデルを調整できるようになりました。
多言語機能とデータセット
Aya 23 モデルはサポートを拡張し、アラビア語、中国語、フランス語、ドイツ語、日本語など 23 の言語。この幅広い言語範囲は、主に英語に焦点を当てた以前のモデルからの脱却を示しています。モデルは、プロンプトと入力完了の 5 億 1,300 万件のインスタンスで構成されるデータセットである、Aya コレクションを使用して開発されました。これは、さまざまな言語で高品質な応答を実現するためにモデルを微調整する上で重要でした。
Aya 23 の作成このプロジェクトには、119 か国にわたる 3,000 人を超える独立した研究者からの貢献が含まれており、プロジェクトの協力的な性質が強調されています。この広範な参加により、モデルが堅牢かつ多用途であり、さまざまな言語上のニュアンスやコンテキストを処理できることが保証されました。
パフォーマンスと技術仕様
技術評価により、既知のAya 23の350億パラメータのバリアントが明らかになりました。アヤ-23-35B として、識別タスクと生成タスクの両方に優れています。前バージョンのAya 101と比較して、識別タスクで最大14%、生成タスクで20%の改善が見られました。さらに、多言語MMLUパフォーマンスで41.6%の向上を達成しました。
Aya-23-35B はデコーダ専用の Transformer アーキテクチャを採用しており、ユーザー プロンプト内の単語のコンテキストを分析することで正確な出力を生成するモデルの機能が強化されています。このモデルには、RAM の使用量を最適化し、推論速度を向上させるために、グループ化されたクエリ アテンションも組み込まれています。さらに、回転位置埋め込みを使用して文内の単語の位置情報をより適切に処理し、出力品質を向上させます。
アクセシビリティとライセンス
オープンアヤ 23 モデルの重量は、クリエイティブ コモンズ表示-非営利 4.0 国際パブリック ライセンスに基づいて、Hugging Face で入手できます。このライセンスの選択により、より広範な研究コミュニティが AI の研究に Cohere を活用し、その上に構築できることが保証されます。さらに、これらの高度な多言語モデルへの無料アクセスを提供する Cohere Playground を通じてモデルを探索することもできます。
トロントに本社を置く Cohere Inc. は、Nvidia Corp. や Nvidia Corp. などの投資家から 4 億ドル以上を調達しました。 Oracle Corp. 同社は、エンタープライズ アプリケーション向けに設計された大規模な言語モデルを専門としています。 Aya シリーズとは別に、Cohere は Embed と呼ばれるニューラル ネットワークも提供しています。これは、データを言語モデルにとってより理解しやすい数学的構造に変換します。
Aya 23 より前に、Cohere は、Aya-101 という機能を備えたモデルをリリースしました。 101の言語を理解できること。ただし、新しいAya-23-35Bは、他のオープンソースの大規模言語モデル(LLM)と比較して、内部評価および多言語テキスト処理タスクにおいて優れたパフォーマンスを実証しています。