Em um movimento parcialmente destinado a restringir o dreno de recursos causado pela eliminação de dados da IA, a Wikimedia Foundation se uniu ao Kaggle Plataforma-conhecida por hosts de 461.000 contasetes-para oferecer uma struct. concurrently via official blog posts from Wikimedia Enterprise and Google yesterday, the beta release provides pre-parsed English and French Wikipedia articles, formatted specifically for machine learning uses, directly on the popular data science community site.

The initiative represents an effort to provide a more efficient, sanctioned alternative for developers needing Wikipedia’s vast information trove, potentially easing the server load attributed to automated bots, which, Ars Technica relatou no dia 15 de abril, contribuído para um quase 50% em torno de 50% em que o thekimd em 15 de abril. src=”https://winbuzzer.com/wp-content/uploads/2025/04/wikimedia-enterprise.jpg”>

Atendendo a tensão do servidor e a acessibilidade de dados href=”https://www.wikipedia.org/”Target=”_ Blank”> Wikipedia . A raspagem da Web não estruturada por empresas de IA tenões na infraestrutura da Wikimedia. Ao fornecer esse conjunto de dados por meio de seu braço comercial, a Wikimedia Enterprise, a fundação oferece um caminho direto e legível por máquina para o conteúdo. href=”https://wikimediafoundation.org/news/2022/06/21/wikimedia-enterprise-announces-google-e-internet-archive-first-customers/”Target=”_”> o Google e o Archive , estabelecida em 2022. Cientistas de dados individuais que frequentam a plataforma. Recurso beta (explicado mais adiante no meta wiki faq JSON (Javascript Object Notation) é um formato leve de intercâmbio de dados que é fácil para os seres humanos lerem e escreverem e fáceis para as máquinas analisarem e gerarem, tornando-o bem adequado para pipelines ML. Target=”_ Blank”> Página do conjunto de dados Kaggle , a versão inicial se concentra nos elementos de alta utilidade. Each JSON line represents a full article and includes fields detailed in the Wikimedia Enterprise data dictionary, such as the article name (title), identifier (ID), url, version details (including editor information and ML-based revision scores), A entidade principal do Wikidata relacionada QID, o resumo do artigo (seção do chumbo), uma descrição curta, links para a imagem principal, infoboxes analisados ​​e seções de artigo segmentadas. O tamanho do conjunto de dados está abaixo de 30 GB, com a página de kaggle listando-o como aproximadamente 25 GB de zíper. Instead of developers needing to scrape and parse raw article text, which can be complex and inconsistent, the dataset provides “clean”data, ready for tasks like model training, benchmarking, alignment, and fine-tuning.

Brenda Flynn, Partnerships Lead at Kaggle, commented in the official announcements: “As the place the machine learning community comes for tools and tests, Kaggle is extremely excited to be the host for Os dados da Wikimedia Foundation. De acordo com os princípios da Wikipedia, o conteúdo textual é fornecido sob licenças abertas-principalmente Creative Commons Attribution-share-ALIMENTE 4.0 (CC por-sa 4.0) e o (CC por-sa 4.0) e o (CC por-sa 4.0) e o 4,0 (CC por-sa 4.0) e href=”https://www.gnu.org/licenses/fdl-1.3.html” target=”_blank”>GNU Free Documentation License (GFDL), with some potential exceptions detailed in Termos de uso da Wikimedia .

Essas licenças geralmente permitem reutilização e modificação, desde que a atribuição seja fornecida e quaisquer trabalhos derivativos sejam compartilhados em termos semelhantes. Wikimedia Enterprise invites users to provide feedback on this initial release through the Kaggle dataset’s discussion tab or its Meta wiki Talk Page Para ajudar a orientar o desenvolvimento futuro e a inclusão potencial de mais elementos de dados.

Categories: IT Info