nvidia a introdus semne , o platformă bazată pe AI, concepută pentru a îmbunătăți învățarea și accesibilitatea limbajului american (ASL).
Dezvoltat în parteneriat cu American Society for Surd Children (ASDC) și agenție digitală
Spre deosebire de Signllm, care se concentrează în principal pe Traduceri bazate pe text în gesturi de semn, abordarea Nvidia se bazează pe datele video validate pentru a perfecționa recunoașterea AI, ceea ce o face mai mult Adaptabil la utilizarea ASL din lumea reală.
Cum funcționează platforma NVIDIA SEMNS
Spre deosebire de dicționarele statice ale limbii de semne, Semne este proiectat pentru a învăța și îmbunătăți prin contribuțiile utilizatorilor. Semnatarii și elevii ASL fluent pot trimite înregistrări video ale cuvintelor semnate, care sunt revizuite de Linguiști ASL înainte de a fi încorporate în setul de date.
Obiectivul lui Nvidia este de a construi un model de instruire care să înțeleagă ASL, deoarece este utilizat în mod natural, mai degrabă decât să se bazeze pe mișcări rigide, predefinite.
Setul de date constă în prezent din 400.000 de clipuri video care acoperă 1.000 cuvinte semnate. Cu toate acestea, Nvidia intenționează să extindă semnificativ această colecție prin deschiderea platformei către o audiență mai mare, permițând mai multe contribuții din partea semnatarilor din întreaga lume.
Compania a confirmat, de asemenea, că va lansa în mod public porțiuni din acest set de date pentru a sprijini cercetătorii AI care lucrează la aplicații axate pe accesibilitate.
, potrivit Cheri Dowling, directorul executiv al ASDC, timpuriu la început Expunerea ASL joacă un rol crucial în dezvoltarea limbajului pentru copiii surzi. Ea explică: „Majoritatea copiilor surzi sunt născuți din părinți auziți. Oferirea membrilor familiei instrumente accesibile, cum ar fi semnele pentru a începe să învețe ASL Early le permite să deschidă un canal de comunicare eficient cu copii cu vârsta de șase până la opt luni.-Pa feedback și analiză a gesturilor
Una dintre caracteristicile cheie ale semnelor este capacitatea sa de a oferi feedback AI în timp real. Gesturile lor, oferind corecții acolo unde este necesar. pentru a îmbunătăți capacitatea AI de a recunoaște variațiile naturale în semnare. viteze, stiluri și poziții de mână.
[Conținut încorporat]
modul în care abordarea Nvidia diferă de alte modele de limbaj al semnelor AI
semnele NVIDIA intră într-un spațiu în care multiple Companiile au experimentat cu recunoașterea limbii semnelor bazate pe AI. În 2019, Google a introdus AI-Tracking-ul de mână tehnologie pentru a detecta gesturi, în timp ce .
Microsoft a integrat AI în instrumente de accesibilitate, inclusiv titluri în timp real și recunoașterea semnelor pentru conferințe video. Microsoft și OpenAI colaborează, de asemenea, cu Be My Eyes , o companie care oferă asistență video live persoanelor care sunt orbe sau cu deficiențe de vedere, urmărind să Faceți AI mai accesibil pentru acești utilizatori.
[conținut încorporat]
Ceea ce diferențiază platforma Nvidia este abordarea sa în învățarea din lumea reală. În loc să se bazeze pe mișcări de semne pre-programate sau gesturi simulate, semnele învață din videoclipuri reale de care sunt prezentate de utilizator, care sunt revizuite de experți ASL. Acest proces de validare asigură că AI nu recunoaște doar semne în mod izolat, ci înțelegerea modului în care sunt utilizate în practică.
provocări în recunoașterea limbajului semnelor AI
Instruirea inteligenței artificiale pentru a înțelege limbajul semnelor prezintă provocări unice care se extind dincolo de recunoașterea tradițională a vorbirii sau a textului. ASL, ca și alte limbi de semn, transmite sensul printr-o combinație de mișcări ale mâinilor, expresiile faciale și poziționarea spațială.
Multe modele AI se luptă cu această complexitate, deoarece majoritatea se bazează în primul rând pe urmărirea mâinilor și trec cu vederea nuanțele semnalelor non-manuale, cum ar fi mișcările sprâncenelor sau înclinările capului, care pot schimba sensul unui semn.
Procesul de validare a setului de date al NVIDIA încearcă să abordeze acest lucru, asigurând AI învață de la utilizarea ASL autentică, reală. Cu toate acestea, obținerea unei precizii ridicate rămâne dificilă din cauza variațiilor regionale și dialectice în ASL.
Două persoane care semnează același cuvânt ar putea folosi mișcări diferite în funcție de fondul lor, ceea ce face mai greu pentru AI să generalizeze modelele de recunoaștere. În timp ce Signllm adoptă o abordare multilingvă prin generarea de poziții scheletice pentru diferite limbi de semn, accentul Nvidia se concentrează în prezent pe rafinarea ASL înainte de a se extinde în alte limbi.
O altă limitare a recunoașterii semnelor bazate pe AI este dependența de mari, seturi de date diverse. Istoric, majoritatea proiectelor de limbă a semnelor AI au folosit seturi de date mai mici, controlate, care nu reflectă cu exactitate modul în care limbajul semnelor este utilizat în conversațiile de zi cu zi.
Acest lucru a contribuit la modelele AI care funcționează bine în medii structurate, dar se luptă în scenarii din lumea reală, unde iluminarea, unghiurile camerei și stilurile de semnare variază foarte mult. Abordarea NVIDIA, care încorporează în mod activ noi exemple depuse de utilizator în datele sale de instruire, este o încercare de a elimina acest decalaj.
aplicații potențiale pentru recunoașterea ASL-ului AI
Pe măsură ce AI devine mai priceput în recunoașterea limbajului semnelor, aplicațiile sale potențiale se extind dincolo de educație. Platformele de conferințe video ar putea integra subtitrări ASL generate de AI-uri în timp real, permițând participanților surzi și greu de auzit să se angajeze mai pe deplin la întâlniri, fără a se baza pe interpreți umani.
În mod similar, ochelarii AR bazate pe AI ar putea oferi traducere instantanee a limbii semnelor în interacțiuni din lumea reală, îmbunătățind accesibilitatea în spațiile publice.
în timp ce AI este încă departe de a se potrivi cu interpreții umani în fluență , Abordarea axată pe setul de date a NVIDIA semnalează o schimbare în modul în care Intelligența artificială învață limbajul semnelor. În loc să trateze ASL ca un set de gesturi predefinite, modelele AI sunt din ce în ce mai antrenate pentru a recunoaște natura fluidă, dependentă de context, a semnării.
Acest lucru deschide posibilități pentru îndrumarea bazată pe AI, traducerea ASL în timp real și chiar avatarurile limbajului semnelor generate de AI.
Un domeniu major de interes este dacă NVIDIA se va extinde în cele din urmă Setul său de date pentru a include componente ASL non-manuale. Unii cercetători au explorat deja rolul expresiilor faciale și al mișcărilor de buze în recunoașterea semnelor, dar majoritatea modelelor AI rămân limitate în această privință.
NVIDIA Work cu organizații precum Rochester Institute of Technology sugerează că AI Learning AI mai larg Tehnicile ar putea fi aplicate recunoașterii ASL în viitor.
Viitorul instrumentelor ASL bazate pe AI va depinde de cât de bine se adaptează aceste modele la utilizarea reală. Cu platforme precum semne, NVIDIA încearcă să treacă dincolo de seturi de date de instruire statică și să creeze un sistem de învățare care evoluează în timp. Dacă are succes, acest lucru ar putea pune bazele instrumentelor de accesibilitate bazate pe AI, care funcționează ca sisteme de învățare dinamice, mai degrabă decât motoare de traducere rigide.