Openai ka prezantuar përpunimin FLEX, një shkallë e veçantë e shërbimit API që synon zhvilluesit të kërkojnë mënyra më ekonomike për të përdorur modelet e arsyetimit O3 dhe O4-Mini të kompanisë. Njoftuar zyrtarisht në 17 Prill 2025, dhe aktualisht i disponueshëm në beta, kjo opsion zvogëlon ndjeshëm kostot e prirura në krahasim me normat standarde të API, duke e bërë AI të përparuar potencialisht më të arritshme për aplikacione të caktuara, megjithëse vjen me tregti të performancës. dokumentacioni i përpunimit fleksibël tregon për të përdorur raste si”vlerësimet e modelit, pasurimin e të dhënave dhe ngarkesat e punës asinkron”si kandidatët ideal. Isshtë paraqitur si një zgjidhje për punë me përparësi më të ulët ose jo-prodhim, ku kursimet e kostos tejkalojnë nevojën për shpejtësi. Për modelin O3, zhvilluesit që përdorin FLEX do të paguajnë 5 dollarë për milion shenja hyrëse dhe 20 dollarë për milion shenja daljeje, një rënie e mprehtë nga normat standarde prej 10 dhe 40 $, përkatësisht. Një ulje e ngjashme prej 50%, me çmim 0,55 dollarë për milion shenja hyrëse dhe 2.20 dollarë për milion shenja daljeje nën Flex, krahasuar me 1.10 $ normale dhe 4,40 $. Kjo strukturë çmimi përputhet fleksibël me normat e përcaktuara tashmë për API të grupit të Openai, duke ofruar një strukturë të parashikueshme të kostos për detyrat e përpunimit në kohë jo reale. Përpunimi fleksibël funksionon në një radhë llogaritjeje me përparësi më të ulët, që do të thotë se përgjigjet e API do të zgjasin më shumë sesa kërkesat e bëra përmes nivelit standard. Nuk është disponueshmëria .”Nëse sistemi i mungon kapaciteti i mjaftueshëm kur të arrijë një kërkesë fleksibël, ai do të kthejë një kod gabimi 429 HTTP. Me rëndësi, Openai ka konfirmuar që zhvilluesit nuk do të ngarkohen për kërkesat që dështojnë me këtë gabim specifik.
Për të trajtuar këto kushte, Openai sugjeron që zhvilluesit të zbatojnë trajtimin e duhur të gabimit. Për aplikimet tolerante ndaj vonesave, rekomandohet rigjarja e kërkesës pas një pauze-potencialisht duke përdorur logjikën eksponenciale të kthimit-. Nëse përfundimi në kohë është i nevojshëm, rënia në nivelin standard të API mbetet një mundësi. Kohëzgjatja e paracaktuar 10-minutëshe në SDK-të zyrtare të Openai mund të jetë e pamjaftueshme, dhe kompania sugjeron që rritja e kësaj kohe në ndoshta 15 minuta për kërkesat FLEX. Për të aktivizuar këtë shërbim, zhvilluesit duhet të specifikojnë parametrin `shërbimi_tier=”fleksibël”brenda thirrjeve të tyre API. Paraqitur me arsyetim të zgjeruar dhe atë që Openai e quajti”sjellje të hershme agjentike.”Përpunimi fleksibël ofron një rrugë të ndryshme, më të përballueshme për zhvilluesit që të përdorin fuqinë e këtyre modeleve përmes API, të përshtatshme për detyrat e backend-it, ku kostoja është një drejtues parësor. Lëvizja e Openai për të siguruar zhvilluesve më shumë kontroll kokrrizor mbi koston kundrejt performancës. Ky nisje gjithashtu pason lëshime të tjera të përqendruara në zhvillues të kohëve të fundit nga Openai, të tilla si mjeti Codex CLI me burim të hapur, i cili gjithashtu mund të përdorë modelet O3 dhe O4-Mini. Ndërsa O4-MINI është gjerësisht i disponueshëm në të shumta të niveleve të shumta (1-5), modeli më i fuqishëm O3 në përgjithësi kërkon që zhvilluesit të jenë në nivele më të larta të shpenzimeve (4 ose 5). Kjo është në përputhje me politikat e deklaruara të Openai që synojnë të sigurojnë përdorimin e përgjegjshëm të platformës.