W ruchu częściowo mającym na celu ograniczenie drenażu zasobów spowodowanego skrobaniem danych AI, Fundacja Wikimedia połączyła siły z Google kaggle platforma-znana z hostowania ponad 461 000 zestawów danych-do zaoferowania strukturowego zestawu danych z bramkowego zbiorów danych. Jednocześnie za pośrednictwem oficjalnych postów na blogu z wikimedia Enterprise i Google yesterday, the beta release provides pre-parsed English and French Wikipedia articles, formatted specifically for machine learning uses, directly on the popular data science community site.

The initiative represents an effort to provide a more efficient, sanctioned alternative for developers needing Wikipedia’s vast information trove, potentially easing the server load attributed to automated bots, which, as ars technik donosił 15 kwietnia, przyczyniło się do prawie 50% surowej w serwisie Bandwidia przez minione rok. src=”https://winbuzzer.com/wp-content/uploads/2025/04/wikimedia-enterprise.jpg”>

Zwracanie się do odkształcenia serwera i dostępności danych

Wykładający rozwój modeli AI wymagających dużych zestawów danych ma stosowną presję na zasoby otwarcia, takie jak wikipedia . Nieustrukturyzowane skrobanie internetowe przez firmy AI napręży infrastrukturę Wikimedii. Dostarczając ten zestaw danych za pośrednictwem swojego ramienia komercyjnego, WikiMedia Enterprise, fundacja oferuje bezpośrednią, odczytującą maszynę ścieżkę do treści.

Opiera się to na istniejącej strategii WikiMedia Enterprise, która zawiera już oferty dostarczania danych z dużymi klientami, takimi jak

Wewnątrz ustrukturyzowanego zestawu danych

pochodzący z wikimedia Enterprise miga Funkcja beta (wyjaśniona dalej w

Według Strona zestawu danych Kaggle Początkowa wersja koncentruje się na elementach o wysokiej wykorzystaniu. Każda linia JSON reprezentuje pełny artykuł i zawiera pola szczegółowe w WikiMedia Enterprise Data Dictionary , takich jak nazwa artykułu (tytuł), identyfikator (id), URL, w tym informacje o edytorach i scenariusze ML), oparte na edytorach Scens), oparte na roli ml. Powiązane główne jednostki Wikidata QID, artykuł Streszczenie (sekcja wiodąca), krótki opis, linki do głównego obrazu, analizowane infoboxy i segmentowane sekcje. Rozmiar zestawu danych ma mniej niż 30 GB, a strona Kaggle wymienia ją jako około 25 GB zapinana na zamek.

Ułatwianie przepływów pracy maszynowej

Zarówno Wikimedia, jak i Kaggle podkreślają projekt zestawu danych dla społeczności maszynowej. Zamiast deweloperzy, którzy muszą zeskrobać i analizować surowy tekst artykułów, który może być złożony i niespójny, zestaw danych zawiera „czyste” dane, gotowe do zadań, takich jak trening modelowy, porównanie, wyrównanie i dostosowanie. Jako miejsce uczenia się.

Brenda Flynn, Partnerships prowadzi w Kaggle. W przypadku danych Fundacji Wikimedii. Zgodnie z zasadami Wikipedii treść tekstowa jest dostarczana w ramach otwartych licencji-przede wszystkim licencja na darmową dokumentację gnU (gfdl), z potencjalnymi wyjątkami szczegółowo w Warunki użytkowania Wikimedia .

Te licencje na ogół pozwalają na ponowne wykorzystanie i modyfikację, o ile przypisanie jest podawane, a wszelkie prace pochodne są udostępniane na podobnych warunkach. Wikimedia Enterprise zaprasza użytkowników do przekazania informacji zwrotnej na temat tego początkowego wydania za pośrednictwem zestawu danych Kaggle strona rozmów wiki wiki Aby pomóc w prowadzeniu przyszłego rozwoju i potencjalnego włączenia większej liczby elementów danych.

Categories: IT Info