într-o mișcare parțial destinată reducerii scurgerii de resurse cauzate de răzuirea datelor AI, Fundația Wikimedia a făcut echipă cu Google kaggle Platforma-cunoscută pentru găzduirea peste 461.000 de baze de date-pentru a oferi un date structurat de la Wikipedia. Postări oficiale de blog de la wikimedia Enterprise și ars tehnica a fost raportat pe 15 aprilie, a contribuit la o creștere de aproape 50% în utilizarea bandwidth a Wikimedia în timpul anului trecut. src=”https://winbuzzer.com/wp-content/uploads/2025/04/wikimedia-enterprise.jpg”>

adresând tulpina serverului și accesibilitatea datelor

Creșterea exponențială a modelelor AI care necesită date mari de date mari a pus presiune considerabilă pe resursele deschis href=”https://www.wikipedia.org/”target=”_ blank”> wikipedia . Răzuirea web nestructurată de către companiile AI încordează infrastructura Wikimedia. Prin furnizarea acestui set de date prin intermediul brațului său comercial, Wikimedia Enterprise, Fundația oferă o cale directă, care poate fi citită de mașini către conținut.

Aceasta se bazează pe strategia existentă a Wikimedia Enterprise, care include deja oferte de furnizare de date cu clienți mari precum Google și Arhiva Internet , stabilit în iunie 2022. individual data scientists who frequent the platform.

Inside the Structured Dataset

Sourced from the Wikimedia Enterprise Snapshot API’s Structured Contents Beta caracteristică (explicată în continuare în Meta wiki Faq ), Brata de date. JSON (JavaScript Object Notation) is a lightweight data-interchange format that is easy for humans to read and write and easy for machines to parse and generate, making it well-suited for ML pipelines.

According to the Pagina de date Kaggle , versiunea inițială se concentrează pe elemente de mare utilitate. Fiecare linie JSON reprezintă un articol complet și include câmpuri detaliate în Wikimedia Enterprise Data Dictionary , cum ar fi numele articolului (titlu), IDEDIFICER (ID), ALL, Versiunea (inclusiv informația editor și ML) Entitatea principală Wikidata QID, Rezumatul articolului (secțiunea de plumb), o scurtă descriere, legături către imaginea principală, infoboxuri analizate și secțiuni de articole segmentate.

excluse deocamdată sunt elemente care nu sunt de protecție, cum ar fi alte fișiere media, liste, tabele și secțiuni de referință. Dimensiunea setului de date este sub 30 GB, pagina Kaggle listându-l ca aproximativ 25 GB fermoar.

Facilitarea fluxurilor de lucru de învățare automată

Atât Wikimedia, cât și Kaggle subliniază designul setului de date pentru comunitatea de învățare automată. În loc de dezvoltatorii care au nevoie să răzuie și să analizeze textul articolului brut, care poate fi complex și inconsistent, setul de date oferă date „curate”, gata pentru sarcini precum antrenamentul modelului, evaluarea comparativă, alinierea și reglarea fină.

Brenda Flynn, parteneriatul conduce la Kaggle, comentat în anunțuri oficiale: „De asemenea Datele Fundației Wikimedia. În conformitate cu principiile Wikipedia, conținutul textual este furnizat sub licențe deschise-în primul rând Creative Commons Attibution-hare-Aalike 4.0 (CC BY-SA 4.0) și Licență de documentare gratuită GNU (gfdl), cu câteva excepții potențiale detaliate în Termenii de utilizare ai Wikimedia .

aceste licențe permit, în general, reutilizarea și modificarea, atât timp cât se acordă atribuirea și orice lucrări derivate sunt partajate în condiții similare. Wikimedia Enterprise îi invită pe utilizatori să ofere feedback cu privire la această versiune inițială prin intermediul datei de date Kaggle Tabul de discuții sau Meta wiki Talk Pagina Pentru a ghida dezvoltarea viitoare și includerea potențială a mai multor elemente de date.

Categories: IT Info