OpenAI hat die Flex Processing eingeführt, eine eigenständige API-Service-Stufe, die sich an Entwickler anstrebt, die nach wirtschaftlicheren Möglichkeiten suchen, um die O3-und O4-Mini-Argumentationsmodelle des Unternehmens zu nutzen. Offiziell bekannt gegeben am 17. April 2025 und derzeit in Beta erhältlich. Diese Option wird im Vergleich zu den Standard-API-Raten erheblich reduziert. Damit wird für bestimmte Anwendungen erweiterte KI möglicherweise mehr zugänglicher, obwohl dies mit Leistungsabschüssen geliefert wird. Die Flex-Verarbeitungsdokumentation zeigt auf Anwendungsfälle wie „Modellbewertungen, Datenanreicherung und asynchrone Arbeiten“ als ideale Kandidaten. Es wird als Lösung für Jobs mit niedrigerer Priorität oder Nichtproduktion präsentiert, bei denen die Kosteneinsparungen den Bedarf an Geschwindigkeit überwiegen. Für das O3-Modell zahlen Entwickler, die Flex verwenden, 5 USD pro Million Eingangs-Token und 20 USD pro Million Output-Token, ein starker Rückgang gegenüber den Standardraten von 10 USD bzw. 40 US-Dollar. Ähnlich 50% Reduzierung von 0,55 USD pro Million Input-Token und 2,20 USD pro Million Output-Token unter Flex im Vergleich zu normalen 1,10 USD und 4,40 USD. Diese Preisstruktur übereinstimmt Flex mit den bereits für die Batch-API von OpenAI festgelegten Tarifen und bietet eine vorhersehbare Kostenstruktur für Aufgaben mit der Verarbeitung von Nicht-Real-Zeit-Verarbeitungen. Die Flex-Verarbeitung arbeitet auf einer Berechnung mit niedrigerer Priorität, was bedeutet, dass die API-Antworten von Natur aus länger dauern als Anfragen, die über die Standardstufe gestellt werden. Nichtverfügbarkeit .”Wenn dem System eine ausreichende Kapazität fehlt, wenn eine Flex-Anforderung eintrifft, gibt es einen 429 HTTP-Fehlercode zurück. Wichtig ist, dass OpenAI bestätigt hat, dass Entwicklern nicht für Anfragen berechnet werden, die mit diesem spezifischen Fehler fehlschlagen.
Um diese Bedingungen zu bewältigen, schlägt OpenAI vor, dass Entwickler eine geeignete Fehlerbehandlung implementieren. Für Anwendungen, die von Verzögerungen tolerant sind, wird empfohlen, die Anfrage nach einer Pause wiederzuverfolgen-möglicherweise eine exponentielle Backoff-Logik. Wenn eine rechtzeitige Fertigstellung erforderlich ist, bleibt die Rückgabe auf die Standard-API-Stufe eine Option. Das standardmäßige 10-minütige Zeitübergang in OpenAIs offiziellen SDKs ist möglicherweise nicht ausreichend, und das Unternehmen schlägt vor, diese Zeitüberschreitung für Flex-Anfragen auf vielleicht 15 Minuten zu erhöhen. Um diesen Service zu aktivieren, müssen Entwickler den Parameter `service_tier=”flex”in ihren API-Aufrufen angeben. Eingeführt mit verbessertem Argument und was OpenAI als „frühes Agentenverhalten“ bezeichnet. Die Flex-Verarbeitung bietet Entwicklern einen anderen und erschwinglicheren Weg, um die Leistung dieser Modelle über API zu nutzen, die für Backend-Aufgaben geeignet ist, bei denen die Kosten ein Haupttreiber sind. OpenAIs Schritt, um Entwicklern eine stärkere Kontrolle über Kosten im Vergleich zu Leistung zu bieten. Dieser Start folgt auch anderen neuesten Entwickler-Fokussierungen von OpenAI, wie dem Open-Source-Codex-CLI-Tool, das auch die O3-und O4-Mini-Modelle nutzen kann. Während O4-Mini in mehreren Ebenen (1-5) weitgehend verfügbar ist, erfordert das leistungsfähigere O3-Modell im Allgemeinen in höheren Ausgabenstufen (4 oder 5). Dies steht im Einklang mit den angegebenen Richtlinien von OpenAI, die darauf abzielen, die verantwortungsvolle Plattform zu gewährleisten.