nvidia hat Zeichen , eine KI-gestützte Plattform zur Verbesserung der amerikanischen Lernsprache (ASL) und Barrierefreiheit (ASL) eingeführt.
In Zusammenarbeit mit dem American Society for Deaf Children (ASDC) und digitale Agentur Google mit AI-gesteuerte Hand-Tracking Technologie eingeführt, während .
Microsoft hat KI in Zugänglichkeitstools integriert, einschließlich Echtzeitunterschriften und Zeichenerkennung für Videokonferenzen. Microsoft und OpenAI arbeiten auch mit My Eyes zusammen, ein Unternehmen, das Live-Videounterstützung für blinde oder visuell beeinträchtige, die darauf abzielen, Ai zugänglicher zu machen. Anstatt sich auf vorprogrammierte Zeichenbewegungen oder simulierte Gesten zu verlassen, lernt die Zeichen aus echten vom Benutzer eingereichten Videos, die von ASL-Experten überprüft werden. Dieser Validierungsprozess stellt sicher, dass KI nicht nur isoliert Anzeichen erkennt, sondern auch versteht, wie sie in der Praxis verwendet werden. ASL vermittelt wie andere Gebärdensprachen die Bedeutung durch eine Kombination von Handbewegungen, Gesichtsausdrücken und räumliche Positionierung.
Viele AI-Modelle haben mit dieser Komplexität zu kämpfen, da die meisten hauptsächlich auf Handverfolgung angewiesen sind und die Nuancen von Nicht-Manualsignalen wie Augenbrauenbewegungen oder Kopfneigung übersehen können, was die Bedeutung eines Zeichens ändern kann. Das Erreichen einer hohen Genauigkeit bleibt jedoch aufgrund regionaler und dialektischer Variationen der ASL schwierig.
Zwei Personen, die das gleiche Wort unterschreiben, kann je nach Hintergrund unterschiedliche Bewegungen verwenden, was es für KI schwieriger macht, Erkennungsmuster zu verallgemeinern. Während Signllm einen mehrsprachigen Ansatz verfolgt, indem sie Skelettposen für verschiedene Gebärdensprachen generiert, liegt der Fokus von NVIDIA derzeit auf der Verfeinerung der ASL, bevor sie sich möglicherweise in andere Sprachen ausdehnen. In der Vergangenheit haben die meisten KI-Gebärdensprachenprojekte kleinere, kontrollierte Datensätze verwendet, die nicht genau widerspiegeln, wie Gebärdensprache in alltäglichen Gesprächen verwendet wird.
Dies hat zu KI-Modellen beigetragen, die in strukturierten Umgebungen gut abschneiden, aber in realen Szenarien kämpfen, in denen Beleuchtung, Kamerawinkel und Signierstile stark variieren. Der Ansatz von NVIDIA, der aktiv neue benutzerfreundliche Beispiele in seine Trainingsdaten einbezieht, ist ein Versuch, diese Lücke zu schließen. Videokonferenzplattformen könnten ASL-Bildunterschriften in Echtzeit integrieren, sodass sich gehörlose und schwerhörende Teilnehmer besser in Meetings einsetzen können, ohne sich auf menschliche Dolmetscher zu verlassen.
In ähnlicher Weise könnten AI-gesteuerte AR-Brillen eine sofortige Signal-Sprachübersetzung in realen Interaktionen liefern und die Zugänglichkeit in öffentlichen Räumen verbessern. Anstatt ASL als eine Reihe vordefinierter Gesten zu behandeln, werden AI-Modelle zunehmend geschult, um die flüssige, kontextabhängige Natur der Unterzeichnung zu erkennen.
Dies eröffnet Möglichkeiten für AI-gesteuerte Nachhilfe, Echtzeit-ASL-Übersetzung und sogar AI-generierte Gebärdensprache. Einige Forscher haben bereits die Rolle von Gesichtsausdrücken und Lippenbewegungen bei der Zeichenerkennung untersucht, aber die meisten KI-Modelle bleiben in dieser Hinsicht begrenzt. Verwendung. Mit Plattformen wie Signs versucht Nvidia, über statische Trainingsdatensätze hinauszugehen und ein Lernsystem zu erstellen, das sich im Laufe der Zeit entwickelt. Wenn dies erfolgreich ist, kann dies die Grundlage für KI-angetriebene Zugänglichkeitstools bilden, die eher als dynamische Lernsysteme als als starre Übersetzungsmotoren fungieren.