A Wikimedia Alapítvány részben az AI-adatok kaparása által okozott erőforrás-lefolyás megfékezésére irányuló lépésben a Google wikimedia enterprise és Google Tegnap a béta kiadás előzetes parkolás angol és francia wikipedia cikkeket biztosít, amelyeket kifejezetten a gépi tanuláshoz, közvetlenül a népszerű adattudományi közösség webhelyén formáznak. href=”https://arstechnica.com/information-Technology/2025/04/ai-bots-botrain-wikimedia-as-Bandwidth-surges-50/”Target=”_ blank”> ars Technica, április 15-én számolt be az elmúlt év alatt. Src=”https://winbuzzer.com/wp-content/uploads/2025/04/wikimedia-enterprise.jpg”>
A szerver törzsek címezése és az adatok akadálymentessége
Az AI modellek exponenciális növekedése, amely nagy adatkészleteket igényel, jelentős nyomást gyakorolnak a nyitott erőforrásokra, mint például a nyílt erőforrásokra, mint a nyitott erőforrásokra, mint a nyitott erőforrásokra, a nagy adatkészletekre vonatkozóan, jelentős nyomást gyakorolnak az adatokhoz. href=”https://www.wikipedia.org/”Target=”_ üres”> wikipedia . Az AI társaságok strukturálatlan webkaparása megterheli a Wikimedia infrastruktúráját. Azáltal, hogy ezt az adatkészletet a Wikimedia Enterprise kereskedelmi karján keresztül biztosítja, az Alapítvány közvetlen, gépi olvasható utat kínál a tartalomhoz. href=”https://wikimediafoundation.org/news/2022/06/21/wikimedia-enterprise-announdes-google-and-internet-archive-first-customers/”Target=”_ üres”> Google és az Internet Archive, a KAGNE CÉL A KAGGY CÉL. és az egyes adattudósok, akik gyakran gyakorolják a platformot. Beta funkció (tovább magyarázva a Meta wiki faq ). A JSON (JavaScript Object Notation) egy könnyű adat-csere formátum, amelyet az emberek számára könnyű olvasni és írni, és a gépek számára könnyű elemezni és generálni, így jól illeszkedik az ML csővezetékekhez. Target=”_ üres”> Kaggle adatkészlet oldal , a kezdeti kiadás a nagy felhasználható elemekre összpontosít. Minden JSON vonal egy teljes cikket képvisel, és a wikimedia Enterprise Data Diction Data szótár , például a cikk nevét (cím), Identifier (ID), URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL, URL) A Wikidata fő entitás QID, a cikk absztrakt (ólom szakasz), egy rövid leírás, linkek a fő képhez, az elemzett infoboxok és a szegmentált cikkszakaszok. Az adatkészlet mérete 30 GB alatt van, a Kaggle oldal körülbelül 25 GB-os cipzárral sorolja fel. Ahelyett, hogy a fejlesztőknek kaparnák és elemezniük kell a nyers cikkszöveget, amely összetett és következetlen lehet, az adatkészlet „tiszta” adatokat szolgáltat, készen áll a feladatokra, például a modellképzésre, a benchmarkingre, az igazításra és a finomhangolásra. A Wikimedia Alapítvány adatai. In line with Wikipedia’s principles, the textual content is provided under open licenses – primarily Creative Commons Attribution-Share-Alike 4.0 (CC BY-SA 4.0) and the gnu ingyenes dokumentációs licenc (gfdl), néhány potenciális kivételével, a A Wikimedia használati feltételei . A Wikimedia Enterprise felkéri a felhasználókat, hogy adjanak visszajelzést erről a kezdeti kiadásról a Kaggle Dataset vita lapja vagy annak href=”https://meta.wikimedia.org/wiki/talk:wikimedia_enterprise”Target=”_ üres”> Meta Wiki Talk oldal A jövőbeli fejlődés és a további adatelemek lehetséges beillesztésének segítése érdekében.