Në një veprim që synon pjesërisht për të frenuar kullimin e burimeve të shkaktuara nga skrapimi i të dhënave të AI, Fondacioni Wikimedia është bashkuar me Google’s Kaggle Platforma e njohur për pritjen mbi 461,000 të dhëna-për të ofruar një të dhënë të strukturuar të nxjerrë nga Wikipedia. njëkohësisht përmes postimeve zyrtare në blog nga Wikimedia Enterprise dhe google Dje, lëshimi beta ofron artikuj të parakohshëm anglez dhe frëngjisht Wikipedia, të formatuara posaçërisht për përdorime të mësimit të makinerive, direkt në faqen e komunitetit të shkencës së të dhënave popullore. ARS Technica raportoi Më 15 Prill, kontribuoi në një rritje gati 50% në Bandwid Ussage të Wikimedia. src=”https://winbuzzer.com/wp-content/uploads/2025/04/wikimedia-enterprise.jpg”>
adresimi href=”https://www.wikipedia.org/”target=”_ bosh”> wikipedia . Scraping i pa strukturuar në internet nga kompanitë e AI shtrëngon infrastrukturën e Wikimedia. Duke siguruar këtë bazë të dhënash përmes krahut të saj tregtar, Wikimedia Enterprise, Fondacioni ofron një rrugë të drejtpërdrejtë, të lexueshme nga makineritë për përmbajtjen. href=”https://wikimediafoundation.org/news/2022/06/21/wikimedia-enterprise-announces-google-and-internet-archive-wer-customers/”target=”_ bosh”dhe shkencëtarët individualë të të dhënave që frekuentojnë platformën. Karakteristikë beta (shpjegohet më tej në meta wiki faq ), të dhënat e japin wikipedia në mënyrë të lehtë për të dezuluar. JSON (shënimi i objektit JavaScript) është një format i lehtë i të dhënave që ndërlidhen që është i lehtë për njerëzit të lexojnë dhe shkruajnë dhe lehtë për makinat të analizojnë dhe gjenerojnë, duke e bërë atë të përshtatshme për tubacionet ML. Target=”_ bosh”> Kaggle Faqe e të dhënave , lëshimi fillestar përqendrohet në elementë të shërbimeve të larta. Linedo linjë JSON përfaqëson një artikull të plotë dhe përfshin fusha të hollësishme në Wikimedia Data Data Fjalore , siç është emri i artikullit (Titulli), Identifikuesi (ID), Url, Detajet e Versionit (përfshirë redaktorin e Informacionit dhe ML të Rezervuarit dhe ML, SCORRES E REVISIONIT) Entiteti kryesor i Wikidata QID, artikulli abstrakt (seksioni i plumbit), një përshkrim i shkurtër, lidhjet me imazhin kryesor, infoBoxes të analizuar dhe seksionet e segmentuara të artikujve. Madhësia e të dhënave është nën 30 GB, me faqen Kaggle duke e renditur atë si afërsisht 25 GB Zipp. Në vend të zhvilluesve që kanë nevojë të pastrojnë dhe analizojnë tekstin e artikullit të papërpunuar, i cili mund të jetë kompleks dhe në kundërshtim, të dhënat ofrojnë të dhëna”të pastra”, të gatshme për detyra si trajnimi model, krahasimi, shtrirja dhe rregullimi i mirë. Për të dhënat e Fondacionit Wikimedia. Në përputhje me parimet e Wikipedia, përmbajtja tekstuale sigurohet nën licenca të hapura-kryesisht Creative Commons Attribution-share 4.0 (CC BY-SA-SA-SA-href=”https://www.gnu.org/licenses/fdl-1.3.html”target=”_ bosh”> gnu licencë e dokumentacionit (gfdl), me disa përjashtime të mundshme të detajuara në Kushtet e përdorimit të Wikimedia . Wikimedia Enterprise fton përdoruesit të japin përshtypje për këtë lëshim fillestar përmes të dhënave të Kaggle meta wiki bisedë wiki Për të ndihmuar në udhëheqjen e zhvillimit të ardhshëm dhe përfshirjen e mundshme të më shumë elementeve të të dhënave.
Categories: IT Info