Openai wprowadził Flex Processing, odrębny poziom usług API mający na celu deweloperów szukających bardziej ekonomicznych sposobów korzystania z modeli rozumowania O3 i O4-Mini. Oficjalnie ogłoszona 17 kwietnia 2025 r. I obecnie dostępna w wersji beta, ta opcja znacznie zmniejsza koszty w celu wręczenia w porównaniu ze standardowymi wskaźnikami API, dzięki czemu zaawansowane AI potencjalnie bardziej dostępne dla niektórych aplikacji nie są bardziej dostępne. Dokumentacja przetwarzania Flex Punkty użycia przypadków, takich jak „oceny modelu, wzbogacenie danych i asynchroniczne obciążenia prac” jako idealni kandydaci. Jest przedstawiony jako rozwiązanie dla zadań o niższym priorytecie lub nieprodukcyjnym, w którym oszczędności kosztów przeważają nad potrzebą prędkości.
Porównanie Flex vs. standardowe ceny
Przetwarzanie Flex obniży koszty interakcji z tymi modelami programowo w połowie. W przypadku modelu O3 programiści korzystający z Flex zapłacą 5 USD za milion tokenów wejściowych i 20 USD za tokeny wyjściowe, co stanowi gwałtowny spadek w stosunku do standardowych stawek o 10 USD i 40 USD. Podobna 50% redukcja, wyceniona na 0,55 USD za milion tokenów wejściowych i 2,20 USD za tokeny produkcyjne pod Flex, w porównaniu z normalnym 1,10 USD i 4,40 USD. Ta struktura cenowa jest zgodna z stawkami ustalonymi już dla API Batch API Openai, oferując przewidywalną strukturę kosztów dla zadań przetwarzania w czasie nierealistycznym.
Zrozumienie kompromisów wydajności
Znaczne oszczędności kosztów wymagają od deweloperów przyjęcia pewnych ograniczeń. Przetwarzanie FLEX działa w kolejce obliczeniowej niższego priorytetu, co oznacza, że odpowiedzi API z natury potrwają dłużej niż żądania złożone przez poziom standardowego.
Ponadto Openai wyraźnie ostrzega o „. ” Jeśli system nie ma wystarczającej pojemności, gdy pojawi się żądanie Flex, zwróci kod błędu 429 HTTP. Co ważne, Openai potwierdził, że programiści nie będą obciążani za żądania, które nie powiodły się z tym konkretnym błędem.
Aby obsłużyć te warunki, Openai sugeruje, że programiści wdrażają odpowiednie obsługę błędów. W przypadku aplikacji tolerancyjnych opóźnień zaleca się ponowne ponowne ponowne ponowne przerwę-potencjalnie przy użyciu wykładniczej logiki wycofania-. Jeśli konieczne jest terminowe zakończenie, powrót do standardowego poziomu interfejsu API pozostaje opcją.
Deweloperzy muszą również przewidzieć wolniejsze czasy reakcji w logice aplikacji; Domyślny 10-minutowy limit czasu w oficjalnych SDK Openai może być niewystarczający, a firma sugeruje zwiększenie tego czasu do 15 minut na elastyczne żądania. Aby aktywować tę usługę, programiści muszą określić parametr „service_tier=”flex”` w ramach ich połączeń API.
Kontekst: modele O3/O4-Mini i dynamika rynku
Ten nowy poziom wyceny ma zastosowanie konkretnie do modeli operwy operwy Wprowadzone z ulepszonym rozumowaniem i tym, co Openai nazywało „wczesne zachowanie agencyjne”.
Oznacza to, że w interaktywnym środowisku chatgpt dla subskrybentów modele te „mogą teraz niezależnie decydować, z jakich narzędzi można użyć i kiedy, bez podpowiedzi użytkownika” autonomicznie wybierając możliwości takie jak przeglądanie stron internetowych lub wykonywanie kodu. Flex Processing oferuje inną, bardziej przystępną ścieżkę dla programistów, aby wykorzystać moc tych modeli za pośrednictwem API, dostosowana do zadań zaplecza, w których koszt jest głównym kierowcą.
Szybka sukcesja wydania modelu, a ten nowy poziom cenowy pojawia się w konkurencyjnym środowisku, w którym koszt korzystania z najnowocześniejszych modeli AI jest główną rozważaniem, a Rivals, takie jak Google, promują wydajne modele, takie jak Flash Gemini 2.5. Ruch Openai w celu zapewnienia programistom większej szczegółowej kontroli nad kosztami w porównaniu z wydajnością. To uruchomienie jest również zgodne z innymi najnowszymi wydaniami zorientowanymi na programistów z Openai, takich jak narzędzie CLI kodeksu typu open-source, które może również wykorzystać modele O3 i O4-Mini.
Wymagania dotyczące dostępu API
Programowy dostęp do tych nowszych modeli za pośrednictwem API jest przedmiotem pewnych warunków w oparciu o to, że program deweloperowy. Podczas gdy O4-Mini jest zasadniczo dostępny na wielu poziomach (1-5), mocniejszy model O3 zazwyczaj wymaga od programistów na wyższych poziomach wydatków (4 lub 5).
Jednak Openai pozwala użytkownikom na niższych poziomach (1-3) uzyskać dostęp do interfejsu API do O3, w tym powiązane zobowiązania, takie jak rozumowanie i wsparcie strumieniowe. Jest to zgodne z podanymi zasadami Openai mające na celu zapewnienie odpowiedzialnego użytku platformy.