Wikipedia och Kaggle släpper strukturerade datasätt för att hjälpa AI-utveckling, motskrapning

I ett drag som delvis syftar till att begränsa resursavloppet orsakat av AI-dataskrapning har Wikimedia Foundation samarbetat med Googles Kaggle plattform-känd för att vara värd för över 461 000 dataser-att erbjuda en strukturerad datasedas från wikipedy. Via officiella blogginlägg från wikimedia Enterprise och

The initiative represents an effort to provide a more efficient, sanctioned alternative for developers needing Wikipedia’s vast information trove, potentially easing the server load attributed to automated bots, which, as Ars Technica reported on April 15th, contributed to a nearly 50% surge in Wikimedia’s bandwidth usage over the past year.

Addressing Server Strain and Data Accessibility

The exponential growth of AI models requiring large datasets has put considerable pressure on open resources like wikipedia . Ostrukturerad webbskrapning av AI-företag stammar Wikimedias infrastruktur. Genom att tillhandahålla detta datasätt via sin kommersiella arm, Wikimedia Enterprise, erbjuder stiftelsen en direkt, maskinläsbar väg till innehållet.

Detta bygger på Wikimedia Enterprise: s befintliga strategi, som redan inkluderar datatillförsel handlar om stora klienter som Google och Internet-arkivet , etablerade i juni 202. enskilda datavetare som ofta plattformen.

inuti det strukturerade datasättet

Sourced from the Wikimedia Enterprise Funktion (förklaras vidare i Meta wiki faq ), datase deliverset deliverset delilder wikipedia contents in conte matte might jedible jedyble jed. JSON (JavaScript Object Notation) är ett lätt data-interchange-format som är lätt för människor att läsa och skriva och enkelt för maskiner att analysera och generera, vilket gör det väl lämpat för ml pipelines.

Enligt Kaggle-datasatssida Fokuserar den första utgåvan på element med hög användbarhet. Varje JSON-linje representerar en fullständig artikel och innehåller fält som är detaljerade i Wikimedia Enterprise Data Dictionary , till exempel artikelnamnet (titel), ID), URL, URL, URL, URL, URLEDERALATION AVDELATION OCH MEDATION OCH BEDEDERADE OCH BEDEDERADE ANDÄRDELORE, BEDELANDE AVDELERADE OCH DETTALÄRDE och BEDELANDE AVDELATIONSKAPIREDERALERE och BELAGANDE REDITIONERADE OCH BEDELANDE AV ADMITITIONSER. Wikidata huvudenhet Qid, artikeln abstrakt (blyavsnitt), en kort beskrivning, länkar till huvudbilden, parsade infoboxer och segmenterade artikelavsnitt.

Uteslutna för nu är icke-prosa element som andra mediefiler, listor, tabeller och referensavsnitt. Datasatsstorleken är under 30 GB, med Kaggle-sidan som listar den som ungefär 25 GB zippad.

Underlättande maskininlärningsarbetsflöden

Både Wikimedia och Kaggle betonar datasatsens design för maskininlärningsgemenskapen. Instead of developers needing to scrape and parse raw article text, which can be complex and inconsistent, the dataset provides “clean”data, ready for tasks like model training, benchmarking, alignment, and fine-tuning.

Brenda Flynn, Partnerships Lead at Kaggle, commented in the official announcements: “As the place the machine learning community comes for tools and tests, Kaggle is extremely excited to be the host För Wikimedia-stiftelsens data är Kaggle glada över att spela en roll för att hålla dessa data tillgängliga, tillgängliga och användbara.”

Access, Licensing and Future Development

Betadatasättet är redan tillgängligt på Kaggle. I linje med Wikipedias principer tillhandahålls textinnehållet under öppna licenser-främst Creative Commons attribut-share-alike 4.0 (CC BY-SA 4.0) och GNU gratis dokumentationslicens (gfdl), med några potentiella undantag detaljerade i wikimedias användarvillkor .

Dessa licenser möjliggör i allmänhet återanvändning och modifiering så länge tillskrivning ges och eventuella derivatverk delas under liknande villkor. Wikimedia Enterprise invites users to provide feedback on this initial release through the Kaggle dataset’s discussion tab or its Meta wiki talkida För att hjälpa till att leda framtida utveckling och potentiell inkludering av mer dataelement.

Wikipedia och Kaggle släpper strukturerade datasätt för att hjälpa AI-utveckling, motskrapning

Published by All Things Windows on April 17, 2025

Addressing Server Strain and Data Accessibility

inuti det strukturerade datasättet

Underlättande maskininlärningsarbetsflöden

Access, Licensing and Future Development

IT Info

DHL pausar B2C-leveranser med högt värde till oss mitt i tullregelnförändringar

IT Info

Chatgpts nya modeller visar Uncanny Photo Geolocation Skill, Igniting Privacy Alarms

IT Info

Fix”kan inte ansluta till RPC Service”-fel när du öppnar Realtek Audio Console

Wikipedia och Kaggle släpper strukturerade datasätt för att hjälpa AI-utveckling, motskrapning

Published by All Things Windows on April 17, 2025

Addressing Server Strain and Data Accessibility

inuti det strukturerade datasättet

Underlättande maskininlärningsarbetsflöden

Access, Licensing and Future Development

Related Posts

IT Info

DHL pausar B2C-leveranser med högt värde till oss mitt i tullregelnförändringar

IT Info

Chatgpts nya modeller visar Uncanny Photo Geolocation Skill, Igniting Privacy Alarms

IT Info

Fix”kan inte ansluta till RPC Service”-fel när du öppnar Realtek Audio Console