MlCommons, we współpracy z Hugging Face, wydał obszerną kolekcję ponad miliona godzin nagrań głosowych w domenie publicznej obejmującej co najmniej 89 języków.
Zestaw danych, zatytułowany mowa ludzi bez nadzoru , została skompilowana z plików audio na archive.org i Is Is Is Is Is Is Zaprojektowany w celu rozwinięcia badań w zakresie rozpoznawania mowy, syntezy głosu i modelowania języków.
W oficjalnym ogłoszeniu organizacja wyjaśniła: „Wspieranie szerszych badań nad przetwarzaniem języka naturalnego dla języków innych niż angielski pomaga wprowadzić technologie komunikacyjne większej liczbie osób na całym świecie” i dodał,
„ przewidujemy kilka zalet społeczności badawczej, aby nadal budować i Rozwijaj się, szczególnie w dziedzinie poprawy modeli mowy językowej o niskim zakresie, zwiększone rozpoznawanie mowy w różnych akcentach i dialektach oraz nowatorskie zastosowania w syntezie mowy “.
Te deklaracje określają cel projektu, zauważając, że ze względu na źródło nagrań, zestaw danych głównie zawiera angielski z akcentów amerykańskich-czynnik, który może wpływać na wydajność modelu podczas przetwarzania innych dialektów.
Osiągnięcia i wyzwania
Projekt mowy ludzi bez nadzoru dotyczył znacznych przeszkód technicznych w zarządzaniu i przetwarzaniu ogromnej ilości danych.
Zespół MLCommons opracował niestandardowe skrypty i zastosował proces przesyłania GIT Large Plik (GIT LFS), aby skutecznie przesyłać ponad 48 terabajtów danych do przechowywania w chmurze. git lfs zastępuje duże pliki wskaźnikami tekstu , umożliwiając wydajną kontrolę wersji aktywów o dużej objętości.
Zaawansowane rurociągi danych, które integrują Wykrywanie aktywności głosowej Silero (VAD) oraz adaptacja Nvidia w modelu Openai’s Whisper zostały wdrożone w celu wyodrębnienia około 821 412 godzin jasnej mowy. Wykrywanie aktywności głosowej jest metodą identyfikującą segmenty zawierające mowę ludzką, filtrowanie ciszy i szumu tła w celu optymalizacji przetwarzania danych.
Te wyrafinowane techniki ilustrują rygorystyczne przetwarzanie wymagane do przekształcenia surowych, z góry z góry z góry użytkownika dane w strukturę ratunek.
Pomimo tych sukcesów, poleganie na nieustannych przesyłaniach zwykle wprowadza wyzwania, takie jak niezależne odchylenie danych i potencjalne rozbieżności licencjonowania-obawy odnotowane również w Analiza MIT na temat przejrzystości zestawu danych .
Szczegóły techniczne zbiorczych danych mowy bez nadzoru
Towarzysząca karta zestawu danych na temat przytulania twarzy przedstawia solidną organizację plików, która zwiększa odtwarzalność i zgodność prawną. Pliki audio są przechowywane w archiwach TAR-każdy średnio 5 GB-i zorganizowane w dwa katalogi („audio” i „audio2″).
Plik licencess.jsonl towarzyszy zestawowi danych w celu udokumentowania warunków licencjonowania (CC-BY i CC-BY-SA, z zestawem danych licencjonowanych w ramach Creative Commons By-SA 4.0) dla każdego klipu audio.
Większość nagrań trwa od 1 do 10 minut, z zaledwie 14 plikami przekraczającymi 100 godzin, a 99% dźwięku jest próbkowane na 44,1 kHz, podczas gdy pozostałe pliki używają alternatywnych szybkości próbkowania, takich jak 16 kHz, 24 kHz, lub 48KHz.
Aby zmaksymalizować użyteczność zestawu danych, MLCommons dostarczył rurociąg treningowy zaprojektowany w celu ułatwienia samozadowolenia uczenia się przy użyciu modeli takich jak WAV2VEC2.
To podejście wykorzystuje techniki, w których segmenty audio są maskowane, a model jest szkolony przy użyciu kontrastowej straty w celu nauki solidnych ukrytych reprezentacji.
Uczenie się samozadowolenia umożliwia modele identyfikując wzorce w surowych, nieznakowanych danych, zmniejszając potrzebę rozległych adnotacji ręcznych-kluczowa zaleta dla języków o niskim zakresie. Dla tych, którzy szukają dalszych szczegółów technicznych, Dokumentacja transformatorów dla WAV2VEC2 oferuje kompleksowe wskazówki. Dostępność tego rurociągu treningowego wzmacnia potencjał zestawu danych do zwiększenia postępów w zakresie rozpoznawania mowy i ułatwia dostrajanie w różnych warunkach językowych.
Rozważania etyczne i zaangażowanie społeczności
Poleganie na danych na publicznie dostępnych, zobowiązane przez użytkownika treści budzi ważne obawy etyczne i licencyjne. Ed Newton-Rex, dyrektor generalny Farely Trained, non-profit certyfikujący generatywne firmy AI w zakresie praktyk danych szkoleniowych, podkreślił te wyzwania w zeszłym roku, Stwierdzając ,
„Twórcy nie powinni być zobowiązani do rezygnacji z treningu Gen AI. Wielu twórców (np. Użytkownicy Squarespace) nie ma znaczącego sposobu rezygnacji. Dla twórców, którzy „mogą” zrezygnować, istnieje wiele nakładających się metod rezygnacji, które (i) są niezwykle mylące i (ii) żałośnie niekompletne w ich zasięgu.
Nawet jeśli istniała idealna uniwersalna rezygnacja (nigdzie blisko), bardzo niesprawiedliwe byłoby wyrzucenie obciążenia twórców, biorąc pod uwagę, że Gen Ai używa swojej pracy, aby konkurować z nimi-wiele po prostu by by to było po prostu po prostu po prostu po prostu po prostu po prostu po prostu po prostu Nie zdaj sobie sprawy, że mogliby zrezygnować. And, of course, a lack of transparency/audit requirements means AI companies can simply ignore opt-outs.”
This ethical perspective is critical in understanding the broader implications of using such datasets.
Co dalej?
mlCommons zaprasza współpracę z from z Naukowcy na całym świecie , w tym eksperci biegli w ponad 130 językach, przyczyniają się do ciągłych punktów odniesienia i walidacji. , Bez nadzoru zestawu danych mowy jest w stanie przyspieszyć postęp w uczeniu się bez nadzoru i solidnego rozwoju modeli. bardziej skutecznie. Przyszłe iteracje mogą obejmować ulepszone metody wstępne, bardziej kompleksowe audyty licencyjne oraz adaptacyjne strategie szkolenia, które łączą dane przeciwne i naturalnie zebrane.