Wikipedia și Kaggle Eliberați set de date structurate pentru a ajuta dezvoltarea AI, războaiele de contor

într-o mișcare parțial destinată reducerii scurgerii de resurse cauzate de răzuirea datelor AI, Fundația Wikimedia a făcut echipă cu Google kaggle Platforma-cunoscută pentru găzduirea peste 461.000 de baze de date-pentru a oferi un date structurat de la Wikipedia. Postări oficiale de blog de la wikimedia Enterprise și ars tehnica a fost raportat pe 15 aprilie, a contribuit la o creștere de aproape 50% în utilizarea bandwidth a Wikimedia în timpul anului trecut. src=”https://winbuzzer.com/wp-content/uploads/2025/04/wikimedia-enterprise.jpg”>

adresând tulpina serverului și accesibilitatea datelor

Creșterea exponențială a modelelor AI care necesită date mari de date mari a pus presiune considerabilă pe resursele deschis href=”https://www.wikipedia.org/”target=”_ blank”> wikipedia . Răzuirea web nestructurată de către companiile AI încordează infrastructura Wikimedia. Prin furnizarea acestui set de date prin intermediul brațului său comercial, Wikimedia Enterprise, Fundația oferă o cale directă, care poate fi citită de mașini către conținut.

Aceasta se bazează pe strategia existentă a Wikimedia Enterprise, care include deja oferte de furnizare de date cu clienți mari precum Google și Arhiva Internet , stabilit în iunie 2022. individual data scientists who frequent the platform.

Inside the Structured Dataset

Sourced from the Wikimedia Enterprise Snapshot API’s Structured Contents Beta caracteristică (explicată în continuare în Meta wiki Faq ), Brata de date. JSON (JavaScript Object Notation) is a lightweight data-interchange format that is easy for humans to read and write and easy for machines to parse and generate, making it well-suited for ML pipelines.

According to the Pagina de date Kaggle , versiunea inițială se concentrează pe elemente de mare utilitate. Fiecare linie JSON reprezintă un articol complet și include câmpuri detaliate în Wikimedia Enterprise Data Dictionary , cum ar fi numele articolului (titlu), IDEDIFICER (ID), ALL, Versiunea (inclusiv informația editor și ML) Entitatea principală Wikidata QID, Rezumatul articolului (secțiunea de plumb), o scurtă descriere, legături către imaginea principală, infoboxuri analizate și secțiuni de articole segmentate.

excluse deocamdată sunt elemente care nu sunt de protecție, cum ar fi alte fișiere media, liste, tabele și secțiuni de referință. Dimensiunea setului de date este sub 30 GB, pagina Kaggle listându-l ca aproximativ 25 GB fermoar.

Facilitarea fluxurilor de lucru de învățare automată

Atât Wikimedia, cât și Kaggle subliniază designul setului de date pentru comunitatea de învățare automată. În loc de dezvoltatorii care au nevoie să răzuie și să analizeze textul articolului brut, care poate fi complex și inconsistent, setul de date oferă date „curate”, gata pentru sarcini precum antrenamentul modelului, evaluarea comparativă, alinierea și reglarea fină.

Brenda Flynn, parteneriatul conduce la Kaggle, comentat în anunțuri oficiale: „De asemenea Datele Fundației Wikimedia. În conformitate cu principiile Wikipedia, conținutul textual este furnizat sub licențe deschise-în primul rând Creative Commons Attibution-hare-Aalike 4.0 (CC BY-SA 4.0) și Licență de documentare gratuită GNU (gfdl), cu câteva excepții potențiale detaliate în Termenii de utilizare ai Wikimedia .

aceste licențe permit, în general, reutilizarea și modificarea, atât timp cât se acordă atribuirea și orice lucrări derivate sunt partajate în condiții similare. Wikimedia Enterprise îi invită pe utilizatori să ofere feedback cu privire la această versiune inițială prin intermediul datei de date Kaggle Tabul de discuții sau Meta wiki Talk Pagina Pentru a ghida dezvoltarea viitoare și includerea potențială a mai multor elemente de date.

Wikipedia și Kaggle Eliberați set de date structurate pentru a ajuta dezvoltarea AI, războaiele de contor

Published by All Things Windows on April 17, 2025

adresând tulpina serverului și accesibilitatea datelor

Inside the Structured Dataset

Facilitarea fluxurilor de lucru de învățare automată

IT Info

DHL întrerupe transporturile B2C de mare valoare către noi pe fondul modificărilor de regulă vamală

IT Info

Noile modele ale Chatgpt afișează abilitatea de geolocalizare foto neobișnuită, aprinzând alarmele de confidențialitate

IT Info

Raportul Google GEMINI 2.5 Pro AI Safety ajunge târziu ca „previzualizare” cu detalii slabe

Wikipedia și Kaggle Eliberați set de date structurate pentru a ajuta dezvoltarea AI, războaiele de contor

Published by All Things Windows on April 17, 2025

adresând tulpina serverului și accesibilitatea datelor

Inside the Structured Dataset

Facilitarea fluxurilor de lucru de învățare automată

Related Posts

IT Info

DHL întrerupe transporturile B2C de mare valoare către noi pe fondul modificărilor de regulă vamală

IT Info

Noile modele ale Chatgpt afișează abilitatea de geolocalizare foto neobișnuită, aprinzând alarmele de confidențialitate

IT Info

Raportul Google GEMINI 2.5 Pro AI Safety ajunge târziu ca „previzualizare” cu detalii slabe