MLCommons, në partneritet me Hugging Face, ka lëshuar një koleksion të gjerë prej mbi një milion orë regjistrime të zërit të domenit publik që përfshijnë të paktën 89 gjuhë.
Të dhënat e të dhënave, të titulluara Fjalimi i Populluar i Popullave , ishte përpiluar nga skedarët audio në arkivi.org dhe is is dhe is është është is dhe is is është is dhe është is dhe është is dhe isshtë iss archive.org. Projektuar për të përparuar kërkimet në njohjen e të folurit, sintezën e zërit dhe modelimin e gjuhës.
Në njoftimin zyrtar, organizata shpjegoi,”Mbështetja e hulumtimeve më të gjera të përpunimit të gjuhës natyrore për gjuhë të ndryshme nga anglishtja ndihmon në sjelljen e teknologjive të komunikimit për më shumë njerëz globalisht”, dhe shtoi,
Këto deklarata krijojnë objektivin e projektit duke vënë në dukje se, për shkak të burimit të regjistrimeve, të dhënat kryesisht përmban anglisht me theks amerikan-një faktor që mund të ndikojë në performancën e modelit kur përpunon dialektet e tjera.
Arritjet dhe Sfidat
Projekti i të folurit i njerëzve të mbikëqyrur adresoi pengesa të rëndësishme teknike në menaxhimin dhe përpunimin e një vëllimi të gjerë të të dhënave.
skuadrat e personalizuara të ekipit MLCommons inxhinieruan dhe punësuan një proces të ngarkimit të mbërthyer të skedarëve të madh (GIT LFS)-të mbështetur për të transferuar mbi 48 terabajt të të dhënave për të ruajtur në mënyrë efikase. git LFS zëvendëson skedarë të mëdhenj me tregues të tekstit , duke lejuar kontrollin efikas të versionit për asetet me vëllim të lartë.
Tubacionet e avancuara të të dhënave që integrojnë Silero’s Voice Activit u zbatuan për të nxjerrë afërsisht 821,412 orë fjalim të qartë. Zbulimi i aktivitetit të zërit është një metodë që identifikon segmentet që përmbajnë fjalimin e njeriut, duke filtruar heshtjen dhe zhurmën e sfondit për të optimizuar përpunimin e të dhënave. burim
Përkundër këtyre sukseseve, një mbështetje në ngarkimet e pacaktuar zakonisht prezanton sfida të tilla si paragjykimi i të dhënave të qenësishme dhe mospërputhjet e mundshme të licencimit-një shqetësim gjithashtu i shënuar në një Analizë MIT në transparencën e të dhënave . >
Karta e të dhënave shoqëruese në fytyrën e përqafimit përshkruan një organizatë të fuqishme dosje që rrit riprodhueshmërinë dhe pajtueshmërinë ligjore. Skedarët audio ruhen në arkivat e TAR-çdo mesatare rreth 5 GB-dhe të organizuara në dy drejtori (“Audio”dhe”Audio2”).
një skedar licencash.jsonl shoqëron bazën e të dhënave për të dokumentuar kushtet e licencimit (CC-by dhe CC-by-SA, me të dhënat e licencuara nën Creative Commons BY-SA 4.0) për secilën klip audio.
Shumica e regjistrimeve zgjasin midis 1 dhe 10 minuta, me vetëm 14 skedarë që tejkalojnë 100 orë, dhe 99% e audios është ekzaminuar në 44.1kHz ndërsa skedarët e mbetur përdorin norma alternative të mostrës si 16kHz, 24kHz, ose 48KHz.
Për të maksimizuar dobinë e të dhënave, MLCommons ka siguruar një tubacion trajnimi të krijuar për të lehtësuar mësimin e vetë-mbikëqyrur duke përdorur modele si WAV2VEC2.
Kjo qasje përdor teknika ku maskohen segmentet e audios dhe modeli trajnohet duke përdorur humbje kontrastuese për të mësuar përfaqësime të forta latente.
Mësimi i vetë-mbikëqyrur lejon modelet të identifikojnë modelet në të dhëna të papërpunuara, pa etiketa, duke zvogëluar nevojën për shënime të gjera manuale-një avantazh thelbësor për gjuhët me burime të ulëta. Për ata që kërkojnë detaje të mëtejshme teknike, Transformuesit Dokumentacioni për WAV2VEC2 ofron udhëzime gjithëpërfshirëse. Disponueshmëria e këtij tubacioni trajnimi forcon potencialin e të dhënave për të nxitur përparimet në teknologjinë e njohjes së të folurit dhe për të lehtësuar rregullimin e mirë në ambiente të ndryshme gjuhësore.
Mbështetja e të dhënave në të disponueshme publikisht, përmbajtja e ngarkuar nga përdoruesi ngre shqetësime të rëndësishme etike dhe licencimi. Ed Newton-Rex, Drejtori i Përgjithshëm i Trajnimit të drejtë, një kompani jo-fitimprurëse që certifikon kompanitë AI për praktikat më të drejta të të dhënave për trajnime, theksoi këto sfida vitin e kaluar, Duke deklaruar ,
“Krijuesit nuk duhet të kërkohen të heqin dorë nga trajnimi i Gen AI. Shumë krijues (p.sh. përdoruesit e Squarespace) nuk kanë asnjë mënyrë domethënëse për të zgjedhur. Për krijuesit që”mund”të heqin dorë, ka shumë metoda të mbivendosura të mbivendosura, të cilat janë (i) tepër konfuze dhe (ii) të mjerueshme jo të plota në mbulimin e tyre.
Edhe nëse ekzistonte një zgjedhje e përsosur universale (askund afër), do të ishte jashtëzakonisht e padrejtë të vish barrën e zgjedhjes për krijuesit, duke pasur parasysh që Gjenerali AI përdor punën e tyre për të konkurruar me ta-shumë thjesht do të ishin nuk e kuptojnë se ata mund të hiqnin dorë. Dhe, natyrisht, mungesa e kërkesave për transparencë/auditim do të thotë që kompanitë e AI thjesht mund të injorojnë opsionet e zgjedhjes.”
Kjo perspektivë etike është thelbësore për të kuptuar implikimet më të gjera të përdorimit të të dhënave të tilla. h3> çfarë është tjetër? Studiuesit në të gjithë botën , përfshirë ekspertët që rrjedhin nga mbi 130 gjuhë, për të kontribuar në standardet e vazhdueshme dhe përpjekjet e vlefshmërisë. , të dhënat e fjalës së njerëzve të mbikëqyrur janë pozicionuar për të përshpejtuar përparimin në të mësuarit e të folurit të pa mbikëqyrur dhe zhvillimin e fuqishëm të modelit. në mënyrë më efektive.
Ndërsa sfidat e tanishme-siç janë paragjykimet e të dhënave dhe konsideratat etike-mbishkrimi, natyra dinamike e kësaj nisme ofron një rrugë për përmirësim të vazhdueshëm. Përsëritjet e ardhshme mund të përfshijnë metoda të zgjeruara të përpunimit, auditime më gjithëpërfshirëse të licencimit dhe strategji të trajnimit adaptiv që kombinojnë të dhëna kundërshtare dhe të mbledhura natyrisht.