Wikimedia-säätiö on osittain tarkoitettu AI-datan raapimisen aiheuttaman resurssien viemärin hillitsemiseksi Googlen Kaggle -alusta-joka tunnetaan yli 461 000 tietokannan hoitamisesta. virallisten blogiviestien kautta Wikimedia Enterprise ja _ Eilen beetajulkaisu tarjoaa esikorvatut englanninkieliset ja ranskalaiset wikipediaartikkelit, jotka on muotoiltu erityisesti koneoppimiseen, suoraan suositulle tietotekniikan yhteisösivustolle.
Aloite edustaa pyrkimystä tarjota tehokkaampi, määrätty vaihtoehto Wikipedia-tietokannan tarpeellisille kehittäjille, jotka potentiaalisesti keventävät palvelinkuormaa, joka on omistettu automaattisesti bootteihin. href=”https://arstechnica.com/information-technology/2025/04/ai-bots-sto-wikimedia-as-bandwidth-surges-50/”Target=”_ tyhjä”> Ars Technica ilmoitti 15. huhtikuuta, myötävaikuttiin lähes 50%: n nousuun Wikimedia-bandoswidth-käyttöä. src=”https://winbuzzer.com/wp-content/uploads/2025/04/wikimedia-enterprise.jpg”>
osoite palvelimen kanta ja data-saavutettavuus
AI-mallejen eksponentiaalista kasvua. href=”https://www.wikipedia.org/”Target=”_ tyhjä”> wikipedia . AI-yritysten jäsenten jäsentämätön verkkokaapiminen Wikimedian infrastruktuuri. Tarjoamalla tämän tietojoukon kaupallisen käsivarrensa, Wikimedia Enterprise-sovelluksen kautta, säätiö tarjoaa suoran, koneen luettavan reitin sisältöön.
Tämä perustuu Wikimedia Enterprise-strategiaan, joka sisältää jo tiedonannon tarjoukset suurten asiakkaiden kanssa, kuten Google ja Internet-arkisto. ja yksittäiset datatieteilijät, jotka usein toimivat. Beta -ominaisuus (selitetty edelleen Meta wiki faq ), DataSet Delivers Wikipedia Content-yhtiön muodossa. JSON (JavaScript Object-merkinnät) on kevyt data-valuumuoto, jota ihmisten on helppo lukea ja kirjoittaa ja helppo koneiden jäsentäminen ja generointi, mikä tekee siitä hyvin ML-putkistojen. Target=”_ tyhjä”> Kaggle Dataset-sivu , alkuperäinen julkaisu keskittyy korkean ulottuvuuden elementteihin. Jokainen JSON-rivi edustaa koko artikkelin ja sisältää kentät, jotka on yksityiskohtaisesti Wikimedia Enterprise Dictionary Wikidata-pääyksikkö QID, artikkeli abstrakti (lyijyosa), lyhyt kuvaus, linkit pääkuvaan, jäsennettyihin tietorasioihin ja segmentoituihin artikkeli-osioihin. Tietojoukon koko on alle 30 Gt, kun Kaggle-sivu on luettelossa noin 25 Gt: n zappimiseksi. Sen sijaan, että kehittäjät, jotka tarvitsevat raaputtaa ja jäsentää raakaa artikkelitekstiä, joka voi olla monimutkainen ja epäjohdonmukainen, tietojoukko tarjoaa “puhdasta”tietoa, valmiina tehtäviin, kuten mallikoulutukseen, vertailuanalyysiin, linjaukseen ja hienosäätöön. Wikimedia-säätiön tiedot. Kaggle on innostunut siitä, että tämä tieto on saatavana, käytettävissä ja hyödyllinen.”Wikipedian periaatteiden mukaisesti tekstisisältöä tarjotaan avoimien lisenssien mukaisesti-ensisijaisesti Creative Commons Attribution-Shaare-Alike 4.0 (CC by-SA 4.0) ja GNU ilmainen dokumentointilisenssi (GFDL), joillakin potentiaalisilla poikkeuksilla, jotka on yksityiskohtaisesti yksityiskohtaisesti Wikimedian käyttöehdot .
Nämä lisenssit mahdollistavat uudelleenkäytön ja muutoksen niin kauan kuin määritys annetaan ja kaikki johdannaiset teokset jaetaan samanlaisissa ehdoissa. Wikimedia Enterprise kutsuu käyttäjiä antamaan palautetta tästä alkuperäisestä julkaisusta Kaggle Dataset’s Keskustelu-välilehti Meta wiki-puhelusivu Auttaakseen ohjaamaan tulevaa kehitystä ja lisää tietoelementtien sisällyttämistä.