OpenAI hat den erweiterten Sprachmodus von ChatGPT mit Vision-Funktionen ausgestattet, sodass Benutzer Live-Videos und Bildschirme für Echtzeitanalysen und-unterstützung teilen können.

Dies stellt eine wesentliche Erweiterung der Funktionalität von ChatGPT dar und verwandelt es in einen visuell bewussten KI-Assistenten, der mit der physischen und digitalen Welt interagieren kann.

Angekündigt im Rahmen der „12 Days of“ von OpenAI OpenAI“ verbessert das Update die Fähigkeit von ChatGPT, bei realen Aufgaben zu helfen und gleichzeitig seine Konversationsintelligenz zu bewahren.

Visuelle KI in Aktion: Wie ChatGPT Videos und Bildschirme verarbeitet

Die neuen visuellen Fähigkeiten von ChatGPT ermöglichen es Benutzern, die KI zu nutzen, indem sie ihre Smartphone-Kameras auf Objekte richten oder ihr Gerät teilen Die Funktion eröffnet eine breite Palette von Anwendungen, von der Erklärung komplexer Bildschirmeinstellungen bis hin zur Identifizierung physischer Objekte in der Umgebung des Benutzers.

Während einer Live-Demonstration führte OpenAI einen Benutzer durch den Prozess von Beim Zubereiten von Kaffee identifizierte das System wichtige Werkzeuge wie einen Kaffeefilter und einen Brüher und bot klare Schritt-für-Schritt-Anleitungen.

Ein weiteres Beispiel war die Analyse einer auf einem Bildschirm angezeigten mathematischen Gleichung und die Erläuterung der Lösung Detail. OpenAI erklärte, dass die Funktion Sprachinteraktion mit der Fähigkeit verbindet, visuelle Eingaben für Echtzeitunterstützung zu interpretieren.

Bildschirmfreigabe bei Verwendung von Advanced Voice für sofortiges Feedback zu dem, was Sie gerade ansehen. pic.twitter.com/d4Xm36dwOX

– OpenAI (@OpenAI) 12. Dezember 2024

Trotz seiner Fähigkeiten erkannte OpenAI Einschränkungen in der aktuellen Iteration des Systems an. Bei der Interpretation komplexer visueller Daten erzeugt die KI gelegentlich falsche Reaktionen – sogenannte „Halluzinationen“. Obwohl dies weiterhin eine Herausforderung darstellt, stellte OpenAI fest, dass iterative Verbesserungen im Gange sind, um die Genauigkeit und Zuverlässigkeit zu verbessern.

Die Einführung dieser Die Vision-Funktionen beginnen ab sofort für ChatGPT Plus-, Pro-und Team-Benutzer, während Enterprise-und Education-Abonnenten ab Januar 2025 Zugriff erhalten.

Benutzer in der Europäischen Union und ausgewählten Ländern wie der Schweiz, In Island und Norwegen kommt es aufgrund von Compliance-und behördlichen Anpassungen zu Verzögerungen. Um die Funktion zu aktivieren, müssen Benutzer in der ChatGPT-App auf den erweiterten Sprachmodus zugreifen und dann die Video-oder Bildschirmfreigabeoptionen auswählen, um visuelle Unterstützung zu aktivieren.

Verwandt: Google stellt Gemini 2.0, Flash 2.0 mit besserem Reasoning und KI-Agenten vor

Vorherige Updates: Canvas-Verbesserungen mit Python-Integration

Am Dienstag hat OpenAI Canvas vollständig veröffentlicht, einen kollaborativen Bearbeitungsarbeitsbereich, der erweiterte Tools für die Text-und Codeverfeinerung bietet. Canvas wurde ursprünglich im Oktober 2024 als Betaversion gestartet und ersetzt die Standardschnittstelle von ChatGPT durch ein Split-Screen-Design, das es Benutzern ermöglicht, an Text oder Code zu arbeiten und gleichzeitig einen Gesprächsaustausch mit der KI zu führen.

Die Hinzufügung der Python-Ausführung ist eine herausragende Funktion von Canvas, die es Entwicklern ermöglicht, Skripte direkt innerhalb der Plattform zu schreiben, zu testen und zu debuggen. OpenAI demonstrierte seinen Nutzen während einer Live-Veranstaltung, indem es Python zum Generieren und Verfeinern von Datenvisualisierungen verwendete. OpenAI beschrieb die Funktion als „Verringerung der Reibung zwischen Ideengenerierung und Umsetzung“.

Am Montag startete OpenAI offiziell Sora, sein fortschrittliches KI-Tool zur Generierung von Videos aus Textaufforderungen, und läutete damit eine neue Ära für kreative KI ein. Integriert In kostenpflichtige ChatGPT-Konten können Benutzer mit Sora Standbilder animieren, vorhandene Videos erweitern und Szenen zu zusammenhängenden Erzählungen zusammenführen.

Letzten Freitag stellte OpenAI ChatGPT Pro vor, eine neue Premium-Abonnementstufe zum Preis von 200 US-Dollar pro Monat, richtet sich an Fachleute und Unternehmen, die erweiterte KI-Funktionen für Arbeitsabläufe mit hoher Nachfrage suchen.

Die neue ChatGPT Pro-Stufe bietet exklusive Funktionen, einschließlich unbegrenzten Zugriffs auf erweiterte KI-Modelle wie GPT-4o, o1 und o1-mini sowie die Vollversion des o1-Argumentationsmodells, zuvor Codename „Strawberry“.

Wettbewerbskontext: OpenAIs strategischer Schachzug in der KI Race

Die Hinzufügung von Vision-Fähigkeiten und erweiterter Funktionalität in Canvas unterstreicht die Bemühungen von OpenAI, eine führende Position in der zunehmend wettbewerbsintensiven KI-Landschaft zu behaupten.

Google treibt sein Projekt Astra voran, einen KI-Assistenten, der Live-Videoeingaben verarbeiten kann, der sich derzeit in begrenzten Tests mit ausgewählten Nutzern befindet. Unterdessen verfeinert Meta seine eigenen visuellen KI-Technologien und unterstreicht damit den branchenweiten Fokus auf die Integration von Vision in Konversations-KI-Plattformen.

Auswirkungen der visuellen KI auf die reale Welt

Die Fähigkeit von ChatGPT, Live-Videos und freigegebene Bildschirme zu verarbeiten, erweitert seinen Nutzen auf verschiedene Bereiche. Für Verbraucher vereinfacht die Funktion Aufgaben wie die Fehlerbehebung bei Geräteproblemen, bietet visuelle Erklärungen zu Einstellungen auf dem Bildschirm oder unterstützt sie bei praktischen Projekten zu Hause.

Im Bildungsbereich kann ChatGPT das Fernlernen unterstützen, indem Probleme oder von Schülern geteilte Materialien visuell interpretiert werden. Für Profis, insbesondere in den Bereichen Design, Ingenieurwesen oder Technik, bietet die Fähigkeit von ChatGPT, visuelle Eingaben zu analysieren, eine neue Funktionsebene, die Arbeitsabläufe rationalisiert und die Effizienz steigert.

Die umfassenderen Auswirkungen dieses Updates spiegeln eine wachsende Nachfrage wider für KI-Systeme, die nahtlos sowohl mit digitalen als auch physischen Umgebungen interagieren können. Mit der Weiterentwicklung von KI-Technologien wie ChatGPT wird ihre Fähigkeit, visuellen Kontext zu verstehen und darauf zu reagieren, für ihre Einführung im Alltag immer wichtiger.

Das Vision-Upgrade von OpenAI für ChatGPT und seine Verbesserungen am Canvas-Arbeitsbereich signalisieren einen bedeutenden Sprung Fortschritte in den Fähigkeiten der Konversations-KI. Durch die Integration von Sprach-, Bild-und Codierungstools erweitert OpenAI weiterhin die praktischen Anwendungen von ChatGPT für Benutzer im persönlichen, pädagogischen und beruflichen Umfeld.

Categories: IT Info