AIデータスクレイピングによって引き起こされるリソースドレインの抑制を部分的に目的とした動きで、Wikimedia FoundationはGoogleの
アドレス指定サーバーのひずみとデータアクセシビリティ
wikipedia 。 AI企業による構造化されていないWebスクレイピングは、ウィキメディアのインフラストラクチャに負担をかけています。このデータセットを商用部門であるWikimedia Enterpriseを介して提供することにより、財団はコンテンツへの直接的な機械読み取り可能な経路を提供します。 href=”https://wikimediafoundation.org/news/2022/06/06/06/21/wikimedia-enterprise-Announces-google-and-inter–chustomers/”target=”_ blank”> Google and the Internet Acrive プラットフォームを頻繁に訪れる個々のデータサイエンティスト。ベータ機能(さらに説明 meta wiki fa>) JSON(JavaScriptオブジェクト表記)は、人間が読み書きが簡単で、マシンが解析して生成しやすい軽量のデータインターチェンジ形式であり、MLパイプラインに適しています。 href=”https://www.kaggle.com/datasets/wikimedia-foundation/wikipedia–ストレクト付き含有量”ターゲット=”_ blank”> kaggleデータセットページ、最初のリリースは高効用要素に焦点を当てています。各JSON行は完全な記事を表しており、 wikimediaエンタープライズデータディクショナリなどに詳述されています。 Wikidata Main Entity QID、記事の要約(LEADセクション)、短い説明、メイン画像へのリンク、解析された情報ボックス、およびセグメント化された記事セクション。
は、他のメディアファイル、リスト、テーブル、参照セクションのような非散図要素です。データセットのサイズは30GB未満で、Kaggleページは約25GBのジップを記載しています。データセットは、複雑で一貫性のない生の記事テキストをスクレイプして解析する必要がある開発者の代わりに、モデルトレーニング、ベンチマーク、アライメント、微調整などのタスクの準備ができている「クリーン」データを提供します。 Wikimedia Foundationのデータについては、このデータを利用可能で、有用にするのに役立つことに興奮しています。ウィキペディアの原則に沿って、テキストコンテンツはオープンライセンスの下で提供されます-主に gnu free documentationライセンス(gfdl)。 Target=”_ blank”> Wikimediaの利用規約。 Wikimedia Enterprise invites users to provide feedback on this initial release through the Kaggle dataset’s discussion tab or its meta wikiトークページ