Dalam langkah yang sebagian ditujukan untuk mengekang pembuangan sumber daya yang disebabkan oleh pengikisan data AI, Wikimedia Foundation telah bekerja sama dengan Google wikimedia Enterprise dan Google Kemarin, rilis beta menyediakan artikel wikipedia Inggris dan Prancis yang telah dibarung pra-paruh, diformat khusus untuk penggunaan pembelajaran mesin, langsung di situs komunitas sains data populer.

Inisiatif yang merupakan upaya untuk memberikan informasi yang lebih efisien dan disetujui oleh para pengembang yang membutuhkan pengembang yang membutuhkan wikipedia yang membangkitkan gabus yang membutuhkan pengembang wikipedia yang membutuhkan Wikipedia’s Wikipedia’s Wikipedia’s Wikipedia’s Wikipedia Seperti arsip internet , yang ditetapkan di bulan Juni 20.”Ilmuwan Data Individu yang sering mengunjungi platform.

di dalam dataset terstruktur

bersumber dari perusahaan wikimedia meta wiki faq

Menurut halaman kumpulan kaggle , rilis awal berfokus pada elemen utilitas tinggi. Each JSON line represents a full article and includes fields detailed in the Wikimedia Enterprise data dictionary, such as the article name (title), identifier (ID), url, version details (including editor information and ML-based revision scores), the Entitas utama Wikidata terkait QID, artikel abstrak (bagian timbal), deskripsi singkat, tautan ke gambar utama, infoboks yang diuraikan, dan bagian artikel tersegmentasi.

Kecuali untuk saat ini adalah elemen yang tidak berpose seperti file media lainnya, daftar, tabel, dan bagian referensi. Ukuran dataset di bawah 30GB, dengan halaman Kaggle mencantumkannya sekitar 25GB zip.

memfasilitasi alur kerja pembelajaran mesin

Baik Wikimedia dan Kaggle menekankan desain dataset untuk komunitas pembelajaran mesin. Alih-alih pengembang yang perlu mengikis dan menguraikan teks artikel mentah, yang bisa rumit dan tidak konsisten, dataset menyediakan data”bersih”, siap untuk tugas-tugas seperti pelatihan model, pembandingan, penyelarasan, dan penyesuaian yang baik.

Brenda flynn, Place-mouning memimpin Kaggle di Kaggle, dikomentari dalam pengumuman resmi:”As a-communs yang akan dipimpin oleh Kaggle di Kaggle, dikomentari dalam pengumuman resmi:”As a ome-commors come fornerships di Kaggle, dikomentari dalam pengumuman resmi:”as a ome-commors come for PlaceS for PlaceS for Kaggle”Untuk data Wikimedia Foundation. In line with Wikipedia’s principles, the textual content is provided under open licenses – primarily Creative Commons Attribution-Share-Alike 4.0 (CC BY-SA 4.0) and the lisensi dokumentasi gratis gnu (gfdl), dengan beberapa pengecualian potensial yang dirinci dalam Ketentuan Penggunaan Wikimedia .

Lisensi ini umumnya memungkinkan untuk digunakan kembali dan modifikasi selama atribusi diberikan dan karya derivatif apa pun dibagikan dengan istilah yang sama. Wikimedia Enterprise mengundang pengguna untuk memberikan umpan balik tentang rilis awal ini melalui Kaggle Dataset’s meta wiki halaman bicara Untuk membantu memandu pengembangan masa depan dan potensi inklusi elemen data lainnya.

Categories: IT Info