OpenAI hat gestern den ChatGPT Pro Plan eingeführt, ein Premium-Angebot zum Preis von 200 US-Dollar pro Monat, das sich an Fachleute und Unternehmen richtet, die fortschrittliche KI-Tools für hochkomplexe Aufgaben benötigen.

Das Herzstück dieser neuen Stufe ist Der o1 Pro-Modus wurde entwickelt, um überragende Zuverlässigkeit und Leistung in Bereichen wie Codierung, fortgeschrittener Problemlösung und wissenschaftlicher Forschung zu bieten. Während OpenAI den o1 Pro-Modus als Durchbruch bei den Denkfähigkeiten bewirbt, werfen erste unabhängige Bewertungen kritische Fragen zu seinem tatsächlichen Wert und den Einschränkungen seines aktuellen Designs auf.
 

Die Pro-Plan: Das Premium-Angebot von OpenAI

Der ChatGPT Pro-Plan kommt nach monatelangen Spekulationen und allmählichen Produktlecks. Der Plan beinhaltet den Zugriff auf GPT-4o und bietet außerdem exklusive Tools wie die unbegrenzte Nutzung des Advanced Voice Mode für Konversationsaufgaben und die Canvas-Schnittstelle, die es Entwicklern ermöglicht, KI-generierten Code direkt zu ändern.

Gemäß OpenAI, o1 Pro Mode ist das Herzstück des Plans und wird als „die zuverlässigste Argumentations-KI für Profis“ beschrieben. Das Unternehmen sagt, dass „OpenAI o1 prägnanter in seiner Denkweise ist“ und „die Leistung von o1-Preview übertrifft“.

OpenAI o1 ist prägnanter in seiner Denkweise, was zu schnelleren Reaktionszeiten als o1-preview führt.

Unsere Tests zeigen, dass o1 o1-preview übertrifft und größere Fehler reduziert bei schwierigen Fragen aus der Praxis um 34 %.

– OpenAI (@OpenAI) Dezember 5, 2024

Die internen Benchmarks von OpenAI scheinen seine ehrgeizigen Ansprüche zu bestätigen o1 Pro-Modus. Beim Mathematikwettbewerb AIME 2024 erreichte o1 Pro Mode Berichten zufolge eine Genauigkeit von 86 %, verglichen mit 50 % beim Vorgänger o1 Preview.

Coding-Benchmarks auf Codeforces zeigten mit o1 Pro Mode ähnliche Zuwächse Es wurde eine Erfolgsquote von 90 % erreicht, eine deutliche Verbesserung gegenüber den 62 %, die von o1 Preview verzeichnet wurden. Bei der Beantwortung wissenschaftlicher Fragen auf PhD-Niveau zeigte das Modell eine deutliche Leistungssteigerung und erzielte einen Wert von 79 % im Vergleich zu 74 %, die die o1-Vorschau erreichte.

In den Werbematerialien von OpenAI wird betont, dass sich der o1-Pro-Modus aufgrund dieser Fortschritte besonders gut eignet für anspruchsvolle professionelle Anwendungen.

Trotz dieser beeindruckenden Zahlen zeigen erste unabhängige Bewertungen eine differenziertere Realität und lassen Zweifel aufkommen, ob der o1 Pro-Modus wirklich einen bahnbrechenden Sprung in der KI darstellt Argumentation.

Unabhängiges Testen mit SimpleBench

Philip, der Entwickler von SimpleBench und eine bekannte Stimme im KI-Benchmarking, führte kurz nach seiner Veröffentlichung eine erste unabhängige Bewertung des o1 Pro Mode durch.

SimpleBench, weithin bekannt für seine Fähigkeit, die Lücken zwischen menschlichem Denken und KI aufzuzeigen Leistung, Maßnahmen u Die Fähigkeit der KI, Aufgaben zu bewältigen, die für Personen mit High-School-Kenntnissen zugänglich sind.

Philip glaubt, dass der o1 Pro-Modus auf einer Technik namens Mehrheitsvote-Aggregation basieren könnte, um seine Zuverlässigkeit zu verbessern. Bei dieser Methode würden mehrere Antworten auf eine Frage generiert und die häufigste Antwort ausgewählt, eine Strategie, die häufig verwendet wird, um Inkonsistenzen in der Ausgabe zu minimieren.

Während OpenAI diesen Ansatz für den o1 Pro-Modus nicht bestätigt hat, beobachtete Philip Verhaltensweisen während seine Tests, die dieser Methodik entsprachen. Er schlug vor, dass dieser Fokus auf Konsens erklären könnte, warum das Modell mit Aufgaben zu kämpfen hatte, die eine tiefere Begründung erforderten, da es der Einigung Vorrang vor der Fähigkeit einräumt, nuancierte oder abstrakte Herausforderungen zu bewältigen.

Er testete den o1 Pro-Modus anhand von zehn öffentlichen Fragen stellte fest, dass das Modell im Durchschnitt nur vier richtige Antworten erzielte. Dieses Ergebnis blieb hinter der Standardversion von o1 zurück, die in denselben Tests durchweg fünf richtige Antworten erzielte.

Laut Philip „ist es fast so, als hätte die Konsensmehrheitsabstimmung die Leistung leicht beeinträchtigt.“ Er spekulierte, dass die Die Mehrheitsabstimmungs-Aggregationstechnik, die darauf ausgelegt ist, mehrere Ausgaben für eine verbesserte Zuverlässigkeit zu kombinieren, hat möglicherweise unbeabsichtigt die Fähigkeit des Modells verringert, Aufgaben zu bewältigen, die differenziertes Denken oder abstraktes Denken erfordern.

In einem Test ging es um ein visuelles Rätsel mit Pfeilen und Sternen erkannte o1 Pro Mode das richtige Muster nicht und lieferte eine Erklärung, die Philip als „weit daneben“ bezeichnete. Diese mangelhafte Leistung bei Aufgaben, die abstraktes und kreatives Denken erfordern, deutet darauf hin, dass der o1 Pro-Modus zwar durch Konsistenz glänzt, es ihm aber schwerfällt, über spezifische, strukturierte Aufgaben hinaus zu verallgemeinern.
 
[eingebetteter Inhalt]

Ethisch Überlegungen und Modellsicherheit

Über Leistungsbenchmarks hinaus wirft die Systemkarte von OpenAI für o1 wichtige ethische Fragen zum Verhalten fortschrittlicher KI-Modelle in Szenarien mit hohem Einsatz auf. Bei kontrollierten Tests zeigte das Modell besorgniserregende Verhaltensweisen, wenn es mit langfristigen Zielen aufgefordert wurde, die Ergebnisse „um jeden Preis“ priorisierten.

Zum Beispiel versuchte o1 in 5 % der Fälle, Überwachungsmechanismen zu deaktivieren und zu exfiltrieren Diese Ergebnisse sind zwar selten und werden unter extremen Bedingungen beobachtet, unterstreichen jedoch die inhärenten Risiken einer Fehlausrichtung in leistungsstarken KI-Systemen.

OpenAI hat betont, dass diese Verhaltensweisen nur in sehr hohem Maße auftraten Die Ergebnisse spiegeln jedoch nicht die typische Verwendung wider, insbesondere da KI-Tools wie der o1 Pro-Modus in professionelle Arbeitsabläufe integriert sind kritischer Faktor, der neben Leistungsmetriken abzuwägen ist.
 

OpenAI o1 Pro-Modus pic.twitter.com/qnJvdR5Dok

– OpenAI (@OpenAI) 6. Dezember 2024

Vorfreude auf GPT-4.5

Zur Diskussion kommen Gerüchten zufolge die wachsenden Spekulationen rund um GPT-4.5 hinzu wird während der OpenAI-Kampagne „12 Days of Shipmas“ als Ergänzung zum ChatGPT-Teamplan angekündigt.

Philip geht davon aus, dass GPT-4.5 über verbesserte Argumentationsfähigkeiten verfügen wird. Er übertrifft sowohl GPT-4o als auch o1 und sagt: „Ehrlich gesagt gibt es keine Möglichkeit, 200 US-Dollar pro Monat nur für den Pro-Modus zu rechtfertigen.“ Darüber hinaus erwartet er, dass GPT-4.5 die kreative Sprachgenerierung verbessert und multimodale Funktionalitäten erweitert, einschließlich erweiterter Bild-und Bildfunktionen Videoanalyse.
 

Der ChatGPT-Teamplan bietet „Eingeschränkte Vorschau von GPT-4.5“ (noch nicht sichtbar) pic.twitter.com/zIVS4O7o5o

– Tibor Blaho (@btibor91) Dezember 5, 2024

Diese Fortschritte könnten GPT-4.5 als direkten Konkurrenten zu Claude 3.5 Sonnet von Anthropic positionieren, das derzeit bei kreativen und Konversationsaufgaben führend ist.

Sam Altman, CEO von OpenAI, hat mit kryptischen Aussagen in den sozialen Medien Spekulationen angeheizt. Als Reaktion auf Bedenken hinsichtlich der Stagnation der KI-Leistung twitterte er „12 Days of Christmas“ und deutete damit auf bedeutende Aktualisierungen während der Kampagne hin. Wenn GPT-4.5 sein Versprechen hält, könnte es das Wertversprechen des ChatGPT Pro-Plans neu definieren. Dies macht es zu einer überzeugenderen Wahl für Profis.

Während der o1 Pro-Modus jetzt die Diskussion dominiert, enthält der ChatGPT Pro-Plan auch zusätzliche Tools, die die Produktivität für bestimmte Anwendungsfälle steigern sollen Mit der Canvas-Schnittstelle können Entwickler KI-generierten Code direkt mithilfe des o1 Pro-Modells verfeinern und so den Debugging-Prozess optimieren.

Unbegrenzter Zugriff auf erweiterte Sprachfunktionen ermöglicht längere natürliche Gesprächsinteraktionen, was sie besonders nützlich für den Kundenservice und den technischen Support macht Zusammengenommen bieten diese Tools greifbare Vorteile für Profis, auch wenn die Leistung des o1 Pro-Modus auf dem Prüfstand steht.

Ein Schritt nach vorne, aber Raum für Wachstum

Der ChatGPT Pro-Plan von OpenAI stellt einen ehrgeizigen Versuch dar, auf die Bedürfnisse von Fachleuten und Unternehmen einzugehen und natürlich das nötige Geld zu verdienen, während OpenAI seine Mittel schnell aufbraucht und immer noch mit Verlust arbeitet. Während der o1 Pro-Modus in Bereichen, die Zuverlässigkeit und Präzision erfordern, vielversprechend ist, wirft seine gemischte Leistung in unabhängigen Benchmarks wie SimpleBench Fragen hinsichtlich seiner breiteren Anwendbarkeit auf.

Während OpenAI während der „12 Days of Shipmas“ die Einführung neuer Funktionen fortsetzt „Die erwartete Veröffentlichung von GPT-4.5 könnte einen Wendepunkt markieren. Im Erfolgsfall hat GPT-4.5 das Potenzial, aktuelle Einschränkungen zu überwinden und die Position von OpenAI als Marktführer im Bereich der wettbewerbsorientierten KI zu festigen Markt.

Im Moment bietet der o1 Pro-Modus schrittweise Fortschritte und nicht den revolutionären Schritt nach vorne, auf den viele gehofft hatten, sodass der ChatGPT Pro-Plan nur für sehr spezielle Anwendungsfälle geeignet ist. Für 200 US-Dollar pro Monat. Es ist ein hoher Preis für geringfügige Verbesserungen – es sei denn, Sie sind tief in Aufgaben vertieft, die höchste Zuverlässigkeit erfordern.

Zuletzt aktualisiert am 7. Dezember 2024 um 17:40 Uhr MEZ

Categories: IT Info