In een beweging die gedeeltelijk gericht was op het beperken van de hulpbronnenafvoer veroorzaakt door AI-gegevensschrapen, heeft de Wikimedia Foundation samengewerkt met Google’s kaggle Platform-bekend voor hosting meer dan 461.000 datasets-om een gestructureerde dataset af te geven van Wikipedia. Via officiële blogberichten van wikimedia enterprise en google Gisteren biedt de bèta-release vooraf geparse Engelse en Franse Wikipedia-artikelen, speciaal opgemaakt voor machine learning-toepassingen, rechtstreeks op de populaire Data Science Community-site.
Het initiatief vertegenwoordigt een inspanning om een efficiëntere, gesanctioneerde alternatief te leveren voor ontwikkelaars die Wikipedia’s Vast Information Treve hebben, potentiaal geavanceerd de Server Lading href=”https://arstechnica.com/information-technology/2025/04/ai-bots-strain-wikimedia-as-bandwidth-surgers-50/”target=”_ blank”> ars technica meldde Op 15 april, op 15 april, op 15 april, op 15 april, op 15 april, op 15 april, op 15 april, op 15 april, op 15 april, op 15 april, op 15 april, op 15 april, op 15 april. src=”https://winbuzzer.com/wp-content/uploads/2025/04/wikimedia-enterprise.jpg”>
het adresseren van server-stam en gegevens toegankelijkheid
De exponentiële groei van AI-modellen die grote datasets vereisen, is een aanzienlijke druk op open bronnen zoals wikipedia . Ongestructureerd webschrapen door AI Companies spannt de infrastructuur van Wikimedia. Door deze dataset te verstrekken via zijn commerciële arm, Wikimedia Enterprise, biedt de Foundation een direct, machinaalleesbaar pad naar de inhoud.
Dit bouwt voort op de bestaande strategie van Wikimedia Enterprise, die al omvat dat gegevensbepalingen worden behandeld met grote klanten zoals Google en het internetarchief , bracht terug in juni 2022. De kaggle-partner, echter, doelwit tot kleinere bedrijven en individuele bedrijven om te vergroten tot kleinere bedrijven en individuen, doelen, doelen tot kleinere bedrijven, echter datawetenschappers die het platform bezoeken.
In de gestructureerde dataset
Afkomstig van de Wikimedia Enterprise sapshot Api’s Structured Contents Intentes Beta functie (verder uitgelegd in de meta wiki faq ), de dataset devers wikipedia-inzichten in de vorming wikipedia-format in de vorming van wikipedia-inzichten in de vorming van wikipedia-format. JSON (JavaScript Object Notation) is een lichtgewicht data-interchange-indeling die gemakkelijk voor mensen kan lezen en schrijven en gemakkelijk voor machines om te parseren en te genereren, waardoor het goed geschikt is voor ML-pijplijnen.
Volgens de Kaggle Dataset-pagina , de eerste release richt zich op elementen met een hoge utility. Each JSON line represents a full article and includes fields detailed in the Wikimedia Enterprise data dictionary, such as the article name (title), identifier (ID), url, version details (including editor information and ML-based revision scores), the Gerelateerde Wikidata Hoofd entiteit QID, het artikel Samenvatting (hoofdsectie), een korte beschrijving, links naar de hoofdafbeelding, ontleedde infoboxen en gesegmenteerde artikelsecties.
uitgesloten voor nu zijn niet-percose-elementen zoals andere mediabestanden, lijsten, tabellen, tabellen en referentiesecties. De datasetgrootte is minder dan 30 GB, waarbij de Kaggle-pagina het vermeldt als ongeveer 25 GB met rits.
faciliterende werkflows van machine learning
Zowel Wikimedia als Kaggle benadrukken het ontwerp van de dataset voor de machinaal leergemeenschap. In plaats van ontwikkelaars die moeten schrapen en pars ruwe artikeltekst, die complex en inconsistent kan zijn, biedt de gegevensset”schone”gegevens, klaar voor taken zoals modeltraining, benchmarking, uitlijning, uitlijning en verfijning.
Brenda Flynn, partnerschappen Lead in Kaggle, leiding in de officiële aankondigingen:”De gegevens van Wikimedia Foundation. In overeenstemming met de principes van Wikipedia wordt de tekstuele inhoud verstrekt onder open licenties-voornamelijk Creative commons href=”https://www.gnu.org/licenzen/fdl-1.3.html”target=”_ blank”> gnu gratis documentatie licentie (gfdl), met enkele potentiële uitzonderingen gedetailleerd in Wikimedia’s gebruiksvoorwaarden .
Deze licenties maken over het algemeen hergebruik en aanpassing mogelijk zolang toeschrijving wordt gegeven en alle afgeleide werken onder vergelijkbare termen worden gedeeld. Wikimedia Enterprise nodigt gebruikers uit om feedback te geven over deze eerste release via de Kaggle Dataset’s Discussietablijf? href=”https://meta.wikimedia.org/wiki/talk:wikimedia_enterprise”target=”_ blank”> Meta wiki talkpagina Om de toekomstige ontwikkeling en potentiële opname van meer gegevenselementen te helpen.