MLCommons heeft, in samenwerking met Hugging Face, een uitgebreide verzameling van meer dan een miljoen uur openbare domein stemopnames uitgebracht van minstens 89 talen.

De dataset, getiteld De toespraak van mensen zonder toezicht , was samengesteld uit audiobestanden op archive.org en is Ontworpen om onderzoek te bevorderen in spraakherkenning, spraaksynthese en taalmodellering.

In de officiële aankondiging legde de organisatie uit:”Ondersteuning van bredere onderzoek naar natuurlijke taalverwerking voor andere talen dan Engels helpt communicatietechnologieën wereldwijd meer mensen te brengen,”en voegde

“Ontwikkel, vooral op het gebied van het verbeteren van taalmodellen met lage resource, verbeterde spraakherkenning over verschillende accenten en dialecten, en nieuwe toepassingen in spraaksynthese.”

Deze verklaringen stellen het doel van het project vast en merken op dat, vanwege de bron van de opnames, de dataset voornamelijk Engels geaccentueerd Engels bevat-een factor die de modelprestaties kan beïnvloeden bij het verwerken van andere dialecten.

prestaties en uitdagingen

Het spraakproject van de niet-toezicht heeft aanzienlijke technische obstakels aangepakt bij het beheren en verwerken van een groot aantal gegevens.

Het MLCommons-team heeft aangepaste scripts ontworpen en gebruikte een GIT grote bestandsopslag (GIT LFS)-teruggebracht uploadproces om meer dan 48 terabytes aan gegevens over te dragen naar cloudopslag efficiënt. Git LFS vervangt grote bestanden door tekstpointers , waardoor efficiënte versiebeheer voor hoog-volume activa mogelijk is.

Geavanceerde datapijplijnen die Silero’s spraakactiviteitdetectie (VAD) en NVIDIA’s aanpassing van Openai’s Whisper Model werden geïmplementeerd om ongeveer 821.412 uur duidelijke spraak te extraheren. Detectie van spraakactiviteit is een methode die segmenten identificeert die menselijke spraak bevatten, stilte en achtergrondruis filteren om gegevensverwerking te optimaliseren.

Deze verfijnde technieken illustreren de rigoureuze verwerking die nodig is om ruwe, door de gebruiker gearmeerde gegevens te transformeren in een gestructureerde bron.

Ondanks deze successen introduceert een afhankelijkheid van niet-gecurateerde uploads meestal uitdagingen zoals inherente gegevensvooroordeel en potentiële licentieverschillende discrepanties-een bezorgdheid ook opgemerkt in een MIT-analyse van datasettransparantie .

Technische details van de spraakgegevenaset van de mensen zonder toezicht

De bijbehorende datasetkaart op knuffel Face schetst een robuuste bestandsorganisatie die de reproduceerbaarheid en juridische naleving verbetert. Audiobestanden worden opgeslagen in TAR-archieven-elk gemiddeld ongeveer 5 GB-en georganiseerd in twee mappen (“Audio”en”Audio2”).

Een licenties.jsonl-bestand hangt bij de dataset om de licentievoorwaarden te documenteren (CC-By en CC-By-SA, met de dataset onder Creative Commons BY-SA 4.0) voor elke audioclip.

De meeste opnames duren tussen 1 en 10 minuten, met slechts 14 bestanden van meer dan 100 uur, en 99% van de audio wordt bemonsterd op 44,1 kHz, terwijl de resterende bestanden alternatieve voorbeeldtarieven gebruiken zoals 16 kHz, 24 kHz of 48 kHz.

Om het hulpprogramma van de dataset te maximaliseren, heeft MLCommons een trainingspijplijn opgeleverd die is ontworpen om zelf-supervised leren te vergemakkelijken met behulp van modellen zoals WAV2VEC2.

Deze aanpak maakt gebruik van technieken waarbij segmenten van de audio worden gemaskeerd en het model wordt getraind met behulp van contrastief verlies om robuuste latente representaties te leren.

Zelf-ondergeschreven leren stelt modellen in staat om patronen in ruwe, niet-gelabelde gegevens te identificeren, waardoor de behoefte aan uitgebreide handmatige annotaties wordt verminderd-een cruciaal voordeel voor talen met een lage resource. Voor degenen die verdere technische details zoeken, biedt de Transformers-documentatie voor Wav2Vec2 uitgebreide richtlijnen. De beschikbaarheid van deze trainingspijplijn versterkt het potentieel van de gegevensset om vooruitgang in spraakherkenningstechnologie te stimuleren en verfijning te vergemakkelijken in verschillende taalinstellingen.

ethische overwegingen en gemeenschapsbetrokkenheid

De afhankelijkheid van de dataset van openbaar beschikbare, door de gebruiker gearmeerde inhoud roept belangrijke ethische en licentiebedrijven op. Ed Newton-Rex, de CEO van Fairly Trained, een non-profit certificerende generatieve AI-bedrijven voor Fairer-trainingsgegevenspraktijken, benadrukte deze uitdagingen vorig jaar, vermelding ,

“Makers mogen zich niet moeten afmelden voor Gen AI-training. Veel makers (bijv. Squarespace-gebruikers) hebben geen zinvolle manier om af te melden. Voor makers die zich’kunnen’afmelden, zijn er meerdere overlappende opt-outmethoden, die (i) ongelooflijk verwarrend zijn en (ii) jammerlijk onvolledig in hun dekking.

Zelfs als er een perfecte universele opt-out bestond (nergens dichtbij), zou het enorm oneerlijk zijn om de opt-out last voor makers te leggen, aangezien Gen Ai hun werk gebruikt om met hen te concurreren-velen zouden gewoon gewoon Realiseer je niet dat ze zich konden afmelden. En natuurlijk betekent een gebrek aan transparantie/auditvereisten AI-bedrijven kunnen eenvoudig opt-outs negeren.”

Dit ethische perspectief is van cruciaal belang om de bredere implicaties van het gebruik van dergelijke datasets te begrijpen.

<

<

Wat is de volgende stap? Onderzoekers wereldwijd , inclusief experts die vloeiend zijn in meer dan 130 talen, om bij te dragen aan voortdurende benchmarks en validatie-inspanningen. , de spraakdataset van de mensen zonder toezicht is gepositioneerd om de vooruitgang te versnellen bij het leren van spraakrepresentatie en robuuste modelontwikkeling. Meer effectiever. Toekomstige iteraties kunnen verbeterde preprocessing-methoden, uitgebreidere licentie-audits en adaptieve trainingsstrategieën omvatten die adversariële en natuurlijk verzamelde gegevens combineren.

Categories: IT Info