Wikipedia et Kaggle Libérer un ensemble de données structuré pour aider à le développement de l'IA, contre-grattage

Dans un mouvement en partie visant à freiner le drain des ressources causé par le grattage des données de l’IA, la Fondation Wikimedia s’est associée à la plate-forme de Google Kaggle connu pour l’hébergement de 461 000 de données-pour offrir un jeu de données structuré dénué de WikipeDia. via des articles de blog officiels de wikimedia Enterprise et

L’initiative représente un effort pour fournir une alternative plus efficace et sanctionnée pour les développeurs ayant besoin href=”https://arstechnica.com/information-technology/2025/04/ai-bots-strain-wikimedia-as-bandwidth-surges-50/”Target=”_ Blank”> Ars Technica a rapporté src=”https://winbuzzer.com/wp-content/uploads/2025/04/wikimedia-enterprise.jpg”>

La tension du serveur et l’accessibilité des données

La croissance exponentielle des modèles AI nécessitant de grandes données de données a mis une pression considérable sur les ressources ouvertes telles que wikipedia . Le grattage Web non structuré par les sociétés d’IA détend l’infrastructure de Wikimedia. En fournissant cet ensemble de données via son bras commercial, Wikimedia Enterprise, la fondation propose une voie directe et lisible par machine vers le contenu.

Cela s’appuie sur la stratégie existante de Wikimedia Enterprise, qui comprend déjà des accords de données avec de grands clients comme Google et les archives Internet , établies en juin 2022. scientifiques qui fréquentent la plate-forme.

à l’intérieur de l’ensemble de données structuré

provenant de la Wikimedia Enterprise sclicshot api contrate Beta Fonction (expliquée plus loin dans le Meta Wiki Fake ), The Dataset Delivers Wikipedia Contenu dans le contenu de Docutre. JSON (JavaScript Object Notation) is a lightweight data-interchange format that is easy for humans to read and write and easy for machines to parse and generate, making it well-suited for ML pipelines.

According to the Page de jeu de données Kaggle , la version initiale se concentre sur les éléments à haute utilité. Chaque ligne JSON représente un article complet et comprend des champs détaillés dans le Wikimedia Enterprise Data Dictionary , tels que le nom de l’article (Titre), l’identification (ID), URL, les détails de l’éditeur (y compris les informations sur la base de révision (ID), URL Wikidata Main Entity Qid, The Article Résumé (section de lead), une brève description, des liens vers l’image principale, des infoboxes analysés et des sections d’articles segmentées.

exclues pour l’instant sont des éléments non multiples comme d’autres fichiers médiatiques, listes, tables et sections de référence. La taille de l’ensemble de données est inférieure à 30 Go, la page Kaggle le répertant sur environ 25 Go zippé.

Faciliter les flux de travail d’apprentissage machine

Wikimedia et Kaggle sur la conception de l’ensemble de données pour la communauté d’apprentissage automatique. Au lieu que les développeurs aient besoin de gratter et d’analyser le texte de l’article brut, qui peut être complexe et incohérent, l’ensemble de données fournit des données «propres», prête pour des tâches telles que la formation de modèle, la référence, l’alignement et le réglage fin. Pour les données de la Wikimedia Foundation. Conformément aux principes de Wikipedia, le contenu textuel est fourni sous des licences ouvertes-principalement Creative Commons Attribution-Share-alike 4.0 (CC by-sa 4.0) et le GNU Licence de documentation gratuite (gfdl), avec quelques exceptions potentielles détaillées dans Les conditions d’utilisation de Wikimedia .

Ces licences permettent généralement de réutiliser et de modifier tant que l’attribution est donnée et que tous les travaux dérivés sont partagés en termes similaires. Wikimedia Enterprise invite les utilisateurs à fournir des commentaires sur cette version initiale via le jeu de données de Kaggle tabulation de discussion ou son href=”https://meta.wikimedia.org/wiki/talk:wikimedia_enterprise”Target=”_ Blank”> Meta Wiki Talk Page pour guider le développement futur et l’inclusion potentielle de plus d’éléments de données.

Wikipedia et Kaggle Libérer un ensemble de données structuré pour aider à le développement de l’IA, contre-grattage

Published by All Things Windows on April 17, 2025

La tension du serveur et l’accessibilité des données

à l’intérieur de l’ensemble de données structuré

Faciliter les flux de travail d’apprentissage machine

IT Info

Les chiens de surveillance américains de la sécurité nationale se sont museaux alors que les efforts de désinformation étrangère s’épanouissent sous Trump

IT Info

Microsoft Edge Adobe PDF Moteur déploie pour les entreprises poussées à la fin 2025

IT Info

Comment supprimer l’icône de commutateur de langue de la barre des tâches de Windows 11

Wikipedia et Kaggle Libérer un ensemble de données structuré pour aider à le développement de l’IA, contre-grattage

Published by All Things Windows on April 17, 2025

La tension du serveur et l’accessibilité des données

à l’intérieur de l’ensemble de données structuré

Faciliter les flux de travail d’apprentissage machine

Related Posts

IT Info

Les chiens de surveillance américains de la sécurité nationale se sont museaux alors que les efforts de désinformation étrangère s’épanouissent sous Trump

IT Info

Microsoft Edge Adobe PDF Moteur déploie pour les entreprises poussées à la fin 2025

IT Info

Comment supprimer l’icône de commutateur de langue de la barre des tâches de Windows 11