Dans un mouvement en partie visant à freiner le drain des ressources causé par le grattage des données de l’IA, la Fondation Wikimedia s’est associée à la plate-forme de Google Kaggle connu pour l’hébergement de 461 000 de données-pour offrir un jeu de données structuré dénué de WikipeDia. via des articles de blog officiels de wikimedia Enterprise et
L’initiative représente un effort pour fournir une alternative plus efficace et sanctionnée pour les développeurs ayant besoin href=”https://arstechnica.com/information-technology/2025/04/ai-bots-strain-wikimedia-as-bandwidth-surges-50/”Target=”_ Blank”> Ars Technica a rapporté
La tension du serveur et l’accessibilité des données
La croissance exponentielle des modèles AI nécessitant de grandes données de données a mis une pression considérable sur les ressources ouvertes telles que
Cela s’appuie sur la stratégie existante de Wikimedia Enterprise, qui comprend déjà des accords de données avec de grands clients comme Google et les archives Internet , établies en juin 2022. scientifiques qui fréquentent la plate-forme.
à l’intérieur de l’ensemble de données structuré
provenant de la Wikimedia Enterprise sclicshot api contrate Beta Fonction (expliquée plus loin dans le Meta Wiki Fake ), The Dataset Delivers Wikipedia Contenu dans le contenu de Docutre. JSON (JavaScript Object Notation) is a lightweight data-interchange format that is easy for humans to read and write and easy for machines to parse and generate, making it well-suited for ML pipelines.
According to the Page de jeu de données Kaggle , la version initiale se concentre sur les éléments à haute utilité. Chaque ligne JSON représente un article complet et comprend des champs détaillés dans le Wikimedia Enterprise Data Dictionary , tels que le nom de l’article (Titre), l’identification (ID), URL, les détails de l’éditeur (y compris les informations sur la base de révision (ID), URL Wikidata Main Entity Qid, The Article Résumé (section de lead), une brève description, des liens vers l’image principale, des infoboxes analysés et des sections d’articles segmentées.
exclues pour l’instant sont des éléments non multiples comme d’autres fichiers médiatiques, listes, tables et sections de référence. La taille de l’ensemble de données est inférieure à 30 Go, la page Kaggle le répertant sur environ 25 Go zippé.
Faciliter les flux de travail d’apprentissage machine
Wikimedia et Kaggle sur la conception de l’ensemble de données pour la communauté d’apprentissage automatique. Au lieu que les développeurs aient besoin de gratter et d’analyser le texte de l’article brut, qui peut être complexe et incohérent, l’ensemble de données fournit des données «propres», prête pour des tâches telles que la formation de modèle, la référence, l’alignement et le réglage fin. Pour les données de la Wikimedia Foundation. Conformément aux principes de Wikipedia, le contenu textuel est fourni sous des licences ouvertes-principalement Creative Commons Attribution-Share-alike 4.0 (CC by-sa 4.0) et le GNU Licence de documentation gratuite (gfdl), avec quelques exceptions potentielles détaillées dans Les conditions d’utilisation de Wikimedia .
Ces licences permettent généralement de réutiliser et de modifier tant que l’attribution est donnée et que tous les travaux dérivés sont partagés en termes similaires. Wikimedia Enterprise invite les utilisateurs à fournir des commentaires sur cette version initiale via le jeu de données de Kaggle tabulation de discussion ou son href=”https://meta.wikimedia.org/wiki/talk:wikimedia_enterprise”Target=”_ Blank”> Meta Wiki Talk Page pour guider le développement futur et l’inclusion potentielle de plus d’éléments de données.