Mlcommonsは、Hugging Faceと協力して、少なくとも89の言語にまたがる100万時間以上のパブリックドメイン音声録音の広範なコレクションをリリースしました。
データセット、タイトル監督者のスピーチは、archive.orgおよびis is is is is is is is is is is audioファイルからまとめられました。音声認識、音声合成、言語モデリングの研究を進めるために設計されています。
公式発表で、組織は「英語以外の言語のより広範な自然言語処理研究をサポートすることは、世界的により多くの人々にコミュニケーション技術をもたらすのに役立ちます」と説明しました。 https://winbuzzer.com/wp-content/uploads/2023/08/microsoft-teams-spatial-audio-scaled.jpg”>
特に、低リソースの言語音声モデルを改善する分野、さまざまなアクセントや方言にわたる音声認識の強化、および音声統合における新しいアプリケーションの領域を開発します。」
これらの宣言はプロジェクトの目的を確立しながら、録音のソースにより、主にアメリカのアクセントのある英語を特徴としていることに注意してください。
成果と課題
監視されていない人々のスピーチプロジェクトは、膨大な量のデータの管理と処理において重要な技術的障害に対処しました。
MLCommonsチームはカスタムスクリプトをエンジニアリングし、GIT大ファイルストレージ(GIT LFS)を採用しました。 git lfsは、大きなファイルをテキストポインターに置き換え、大量のアセットの効率的なバージョン制御を可能にします。
Sileroの音声アクティビティ検出(VAD)およびNVIDIAのOpenaiのウィスパーモデルの適応
これらの洗練された手法は、生のユーザーが使用したデータを構造化された構造に変換するために必要な厳密な処理を示しています。リソース。
これらの成功にもかかわらず、未発表のアップロードへの依存は通常、固有のデータバイアスや潜在的なライセンスの不一致などの課題を導入します。 2024/Study-Language-Models-Datasets-Lack-Transparency-0830″>データセットの透明性に関するMIT分析。 >
抱きしめる顔の添付のデータセットカードは、再現性と法的コンプライアンスを強化する堅牢なファイル組織の概要を示しています。オーディオファイルは、約5GBのTARアーカイブに保存され、2つのディレクトリ(「Audio」と「Audio2」)に整理されています。
ライセンスファイルには、各オーディオクリップのライセンス条件(CC-ByおよびCC-SA)を文書化します。
ほとんどの録音は1分から10分間続き、14ファイルのみが100時間を超え、オーディオの99%が44.1kHzでサンプリングされますが、残りのファイルは16kHz、24kHz、または16kHz、24kHz、または48kHz。
データセットのユーティリティを最大化するために、MLCommonsはWAV2VEC2などのモデルを使用して自己監視学習を促進するように設計されたトレーニングパイプラインを提供しました。
このアプローチでは、オーディオのセグメントがマスクされ、モデルが対照的な損失を使用してトレーニングを行い、堅牢な潜在表現を学習する技術を採用しています。
自己監視学習により、モデルは生の非標識データのパターンを識別し、広範な手動注釈の必要性を減らします。これは、低リソース言語の重要な利点です。さらに技術的な詳細を探している人のために、 wav2vec2 のドキュメントを提供します。このトレーニングパイプラインの可用性は、音声認識技術の進歩を促進し、多様な言語設定全体の微調整を促進するデータセットの可能性を強化します。
データセットの公開されているユーザーが支えられたコンテンツに依存することは、重要な倫理的およびライセンスの懸念を引き起こします。公正なトレーニングデータプラクティスの非営利認証生成AI企業であるFailly TrainedのCEOであるEd Newton-Rexは、昨年のこれらの課題を強調しました。 > 、
「創造者はGen AIトレーニングをオプトアウトする必要はありません。多くのクリエイター(Squarespaceユーザーなど)には、オプトアウトする意味のある方法がありません。オプトアウトすることができるクリエイターの場合、複数のオーバーラップオプトアウト方法があります。これは、(i)信じられないほど混乱し、(ii)カバレッジがひどく不完全です。
完璧なユニバーサルオプトアウトが存在していたとしても(どこにも近い)、Gen AIが彼らと競争するために彼らの仕事を使用していることを考えると、クリエイターにオプトアウトの負担をかけることは非常に不公平です。彼らがオプトアウトできることに気付いていません。そしてもちろん、透明性/監査要件の欠如は、AI企業がオプトアウトを単純に無視できることを意味します。」
この倫理的視点は、そのようなデータセットを使用することのより広い意味を理解する上で重要です。
次は何ですか?
mlcommonsはコラボレーションを招待します世界中の研究者は、130を超える言語に堪能な専門家を含み、継続的なベンチマークと検証の取り組みに貢献しています。 、監視されていない人々の音声データセットは、監視されていない音声表現の学習と堅牢なモデル開発の進歩を加速するために位置しています。より効果的に。将来の反復には、強化された前処理方法、より包括的なライセンス監査、および敵対的で自然に収集されたデータを組み合わせた適応トレーニング戦略が組み込まれる場合があります。