I ett drag som delvis syftar till att begränsa resursavloppet orsakat av AI-dataskrapning har Wikimedia Foundation samarbetat med Googles Kaggle plattform-känd för att vara värd för över 461 000 dataser-att erbjuda en strukturerad datasedas från wikipedy. Via officiella blogginlägg från wikimedia Enterprise och
The initiative represents an effort to provide a more efficient, sanctioned alternative for developers needing Wikipedia’s vast information trove, potentially easing the server load attributed to automated bots, which, as Ars Technica reported on April 15th, contributed to a nearly 50% surge in Wikimedia’s bandwidth usage over the past year. The exponential growth of AI models requiring large datasets has put considerable pressure on open resources like wikipedia . Ostrukturerad webbskrapning av AI-företag stammar Wikimedias infrastruktur. Genom att tillhandahålla detta datasätt via sin kommersiella arm, Wikimedia Enterprise, erbjuder stiftelsen en direkt, maskinläsbar väg till innehållet. Detta bygger på Wikimedia Enterprise: s befintliga strategi, som redan inkluderar datatillförsel handlar om stora klienter som Google och Internet-arkivet , etablerade i juni 202. enskilda datavetare som ofta plattformen. Sourced from the Wikimedia Enterprise Funktion (förklaras vidare i Meta wiki faq ), datase deliverset deliverset delilder wikipedia contents in conte matte might jedible jedyble jed. JSON (JavaScript Object Notation) är ett lätt data-interchange-format som är lätt för människor att läsa och skriva och enkelt för maskiner att analysera och generera, vilket gör det väl lämpat för ml pipelines. Enligt Kaggle-datasatssida Fokuserar den första utgåvan på element med hög användbarhet. Varje JSON-linje representerar en fullständig artikel och innehåller fält som är detaljerade i Wikimedia Enterprise Data Dictionary , till exempel artikelnamnet (titel), ID), URL, URL, URL, URL, URLEDERALATION AVDELATION OCH MEDATION OCH BEDEDERADE OCH BEDEDERADE ANDÄRDELORE, BEDELANDE AVDELERADE OCH DETTALÄRDE och BEDELANDE AVDELATIONSKAPIREDERALERE och BELAGANDE REDITIONERADE OCH BEDELANDE AV ADMITITIONSER. Wikidata huvudenhet Qid, artikeln abstrakt (blyavsnitt), en kort beskrivning, länkar till huvudbilden, parsade infoboxer och segmenterade artikelavsnitt. Uteslutna för nu är icke-prosa element som andra mediefiler, listor, tabeller och referensavsnitt. Datasatsstorleken är under 30 GB, med Kaggle-sidan som listar den som ungefär 25 GB zippad. Både Wikimedia och Kaggle betonar datasatsens design för maskininlärningsgemenskapen. Instead of developers needing to scrape and parse raw article text, which can be complex and inconsistent, the dataset provides “clean”data, ready for tasks like model training, benchmarking, alignment, and fine-tuning. Brenda Flynn, Partnerships Lead at Kaggle, commented in the official announcements: “As the place the machine learning community comes for tools and tests, Kaggle is extremely excited to be the host För Wikimedia-stiftelsens data är Kaggle glada över att spela en roll för att hålla dessa data tillgängliga, tillgängliga och användbara.” Betadatasättet är redan tillgängligt på Kaggle. I linje med Wikipedias principer tillhandahålls textinnehållet under öppna licenser-främst Creative Commons attribut-share-alike 4.0 (CC BY-SA 4.0) och GNU gratis dokumentationslicens (gfdl), med några potentiella undantag detaljerade i wikimedias användarvillkor . Dessa licenser möjliggör i allmänhet återanvändning och modifiering så länge tillskrivning ges och eventuella derivatverk delas under liknande villkor. Wikimedia Enterprise invites users to provide feedback on this initial release through the Kaggle dataset’s discussion tab or its Meta wiki talkida För att hjälpa till att leda framtida utveckling och potentiell inkludering av mer dataelement.
Addressing Server Strain and Data Accessibility
inuti det strukturerade datasättet
Underlättande maskininlärningsarbetsflöden
Access, Licensing and Future Development
Categories: IT Info