Nvidia wprowadziła znaki , platformę napędzaną AI zaprojektowaną w celu poprawy uczenia się i dostępności w języku migowym (ASL).
Opracowane we współpracy z American Society for Deaf Children (ASDC) i agencję cyfrową cześć poniedziałek System trenuje modele sztucznej inteligencji, włączając rzeczywiste gesty ASL od użytkowników. Projekt ma na celu udoskonalenie rozpoznawania znaków opartych na sztucznej inteligencji poprzez uczynienie go bardziej dokładnym, skalowalnym i zdolnym do zrozumienia naturalnych stylów podpisywania.
Inicjatywa opiera się na rosnącej liczbie projektów języków migowych napędzanych przez AI, w tym SignlM , model zaprojektowany do generowania reprezentacji szkieletowych dla ośmiu różnych języków migowych.
w przeciwieństwie do signllm, co przede wszystkim koncentruje się na Tłumaczenia tekstowe na gesty znaków, podejście NVIDIA opiera się na sprawdzonych danych wideo w celu udoskonalenia rozpoznawania sztucznej inteligencji, co czyni je bardziej Dostosowalne do rzeczywistego użycia ASL.
Jak działa platforma znaków Nvidia
w przeciwieństwie do statycznych słowników języka migowego, Znaki są zaprojektowane Aby uczyć się i ulepszać poprzez wkład użytkowników. Płynne sygnatariusze i uczniowie ASL mogą przesyłać nagrania wideo podpisanych słów, które są recenzowane przez językoznawców ASL, zanim zostaną włączeni do zestawu danych.
Celem Nvidii jest zbudowanie modelu treningowego, który rozumie ASL, ponieważ jest on naturalnie używany, zamiast polegać na sztywnych, predefiniowanych ruchach.
Zestaw danych składa się obecnie z 400 000 klipów wideo obejmujących 1000 Podpisane słowa. Jednak Nvidia planuje znacznie rozszerzyć tę kolekcję, otwierając platformę na większą publiczność, umożliwiając więcej wkładów sygnatariuszy na całym świecie.
Firma potwierdziła również, że publicznie opublikuje części tego zestawu danych, aby wspierać badaczy AI pracujących nad aplikacjami skoncentrowanymi na dostępności.
Według Cheri Dowling, dyrektora wykonawczego ASDC, wcześnie Ekspozycja ASL odgrywa kluczową rolę w rozwoju języka dla osób niesłyszących. Wyjaśnia: „Większość osób niesłyszących rodzi się z rodzicami. Dawanie członków rodziny dostępnych narzędzi, takich jak znaki, aby rozpocząć wczesne uczenie się ASL, umożliwia im otwarcie skutecznego kanału komunikacyjnego z dziećmi w wieku od sześciu do ośmiu miesięcy. “
[Osadzona treść]
Real AI Real.-Analiza zwrotna i analiza gestów
Jedną z kluczowych funkcji znaków jest dostarczanie informacji zwrotnej w czasie rzeczywistym za pomocą kamery internetowej, użytkownicy mogą podpisać słowo, a system przeanalizuje Ich gesty, oferujące poprawki w razie potrzeby. Aby poprawić zdolność AI do rozpoznawania naturalnych zmian w podpisywaniu. Prędkości podpisywania, stylów i pozycji ręki.
[zawartość wbudowana]
W jaki sposób podejście Nvidia różni się od innych modeli języka migowego AI
Znaki Nvidia wchodzi w przestrzeń, w której wchodzi w przestrzeń, w której Wiele firm eksperymentuje z rozpoznawaniem języka migowego opartego na AI. W 2019 r. Google wprowadził rękę AI-Powered Technologia wykrywania gestów, podczas gdy Meta Exporsion Sign Language Tłumacz. modele .
Microsoft integruje sztuczną inteligencję z narzędziami dostępności, w tym podpisami w czasie rzeczywistym i rozpoznawaniem podpisów do wideokonferencji. Microsoft i Openai współpracują również z bądź moim oczami , firmie, która zapewnia pomoc wideo na żywo osobom, które są ślepe lub wizualnie zaburzone, dążą do tego, że dążą do tego Uczyń AI bardziej dostępną dla tych użytkowników.
[zawartość wbudowana]
To, co wyróżnia platformę Nvidia, jest jej podejście do uczenia się w świecie rzeczywistym. Zamiast polegać na wcześniej zaprogramowanych ruchach znaków lub symulowanych gestach, znaki uczy się na podstawie prawdziwych filmów o podjęciu przez użytkowników, które są sprawdzane przez ekspertów ASL. Ten proces walidacji zapewnia, że sztuczna inteligencja nie tylko rozpoznaje znaki w izolacji, ale rozumie, w jaki sposób są one używane w praktyce.
Wyzwania w rozpoznawaniu języka migowego AI
Szkolenie sztucznej inteligencji w celu zrozumienia języka migowego stanowi wyjątkowe wyzwania, które wykraczają poza tradycyjne rozpoznawanie mowy lub tekstu. ASL, podobnie jak inne języki migowe, przekazuje znaczenie poprzez połączenie ruchów ręcznych, mimiki i pozycjonowania przestrzennego.
Wiele modeli AI zmaga się z tą złożonością, ponieważ najbardziej polegają przede wszystkim na śledzeniu ręcznym i przeoczają niuanse sygnałów nie-manualnych, takich jak ruchy brwi lub przechylania głowy, które mogą zmienić znaczenie znaku.
Proces sprawdzania poprawności danych NVIDIA próbuje rozwiązać ten problem, zapewniając, że AI uczy się z autentycznego, rzeczywistego używania ASL. Jednak osiągnięcie wysokiej dokładności pozostaje trudne ze względu na regionalne i dialektyczne zmiany ASL.
Dwie osoby podpisujące to samo słowo mogą wykorzystywać różne ruchy w zależności od ich tła, utrudniając sztucznej inteligencji uogólnienie wzorców rozpoznawania. Podczas gdy Signllm przyjmuje wielojęzyczne podejście, generując pozycje szkieletowe dla różnych języków migowych, Nvidia koncentruje się obecnie na rafinacji ASL przed potencjalnym rozszerzeniem na inne języki.
Kolejnym ograniczeniem rozpoznawania znaków opartych na sztucznej inteligencji jest poleganie na dużych różnorodne zestawy danych. Historycznie większość projektów języka migowego AI używała mniejszych, kontrolowanych zestawów danych, które nie odzwierciedlają dokładnie, w jaki sposób język migowy jest używany w codziennych rozmowach.
Przyczyniło się to do modeli AI, które działają dobrze w środowiskach strukturalnych, ale walczą w rzeczywistych scenariuszach, w których oświetlenie, kąty kamery i style podpisywania są bardzo bardzo różne. Podejście NVIDIA, które aktywnie zawiera nowe przykłady zbitych przez użytkownika do swoich danych treningowych, jest próbą wypełnienia tej luki.
Potencjalne aplikacje do rozpoznawania AI AI
Jako sztuczna inteligencja staje się bardziej biegła w rozpoznawaniu języka migowego, jego potencjalne zastosowania wykraczają poza edukację. Platformy wideokonferencyjne mogą zintegrować napisy ASL wygenerowane przez AI w czasie rzeczywistym, umożliwiając niesłyszącym i twardym uczestnikom pełniejsze angażowanie się w spotkania bez polegania na ludzkich tłumaczach.
Podobnie, okulary AR napędzane przez AI-AI mogą zapewnić natychmiastowe tłumaczenie języka migowego w interakcjach w świecie rzeczywistym, poprawiając dostępność w przestrzeniach publicznych.
, podczas gdy AI wciąż jest dalekie od płynnych tłumaczy ludzkich tłumaczy , Podejście skoncentrowane na zestawie danych NVIDIA sygnalizuje zmianę tego, jak sztuczna inteligencja uczy się języka migowego. Zamiast traktować ASL jako zestaw predefiniowanych gestów, modele AI są coraz częściej szkolone do rozpoznawania płynu, zależnego od kontekstu charakteru podpisania.
Otwiera to możliwości korepetycji opartych na AI, tłumaczeniu ASL w czasie rzeczywistym, a nawet awatarów z języka migowego generowanego przez AI.
Jednym z głównych obszarów zainteresowania jest to, czy NVIDIA ostatecznie rozszerzy się jego zestaw danych zawierający nie-meczowe komponenty ASL. Niektórzy badacze zbadali już rolę wyrazu twarzy i ruchów warg w rozpoznawaniu znaków, ale większość modeli AI pozostaje pod tym względem ograniczona.
Prace NVIDIA z organizacjami, takimi jak Rochester Institute of Technology sugeruje, że szersze uczenie się AI W przyszłości można zastosować techniki do rozpoznawania ASL.
Przyszłość narzędzi ASL napędzanych przez AI-AI będzie zależeć od tego, jak dobrze te modele dostosowują się do rzeczywistego wykorzystania. Z platformami takimi jak znaki, Nvidia stara się wyjść poza statyczne zestawy danych szkoleniowych i stworzyć system ewolucji, który ewoluuje z czasem. Jeśli się powiedzie, może to położyć podwaliny pod narzędzia dostępności z napędem AI, które działają jako dynamiczne systemy uczenia się, a nie sztywne silniki tłumaczeniowe.