Ipinakilala ng OpenAI ang pagproseso ng Flex, isang natatanging tier ng serbisyo ng API na naglalayong mga developer na naghahanap ng mas matipid na paraan upang magamit ang mga modelo ng O3 at O4-mini ng kumpanya. Opisyal na inihayag noong Abril 17, 2025, at kasalukuyang magagamit sa Beta, ang pagpipiliang ito ay makabuluhang binabawasan ang mga per-token na gastos kumpara sa mga karaniwang rate ng API, na ginagawang advanced na AI na maaaring mas madaling ma-access para sa ilang mga aplikasyon, bagaman ito ay may mga trade-off ng pagganap. Ang flex processing dokumentasyon Mga puntos na gumamit ng mga kaso tulad ng”Mga Pagsusuri ng Modelo, Data Enrichment at Asynchronous Workloads”bilang perpektong mga kandidato. Inilahad ito bilang isang solusyon para sa mga mas mababang priyoridad o hindi paggawa ng mga trabaho kung saan ang pagtitipid ng gastos ay higit sa pangangailangan para sa bilis. Para sa modelo ng O3, ang mga developer na gumagamit ng Flex ay magbabayad ng $ 5 bawat milyong mga token ng input at $ 20 bawat milyong mga token ng output, isang matalim na pagbaba mula sa karaniwang mga rate ng $ 10 at $ 40, ayon sa pagkakabanggit. Nakikita ang isang katulad na 50% na pagbawas, na naka-presyo sa $ 0.55 bawat milyong mga token ng input at $ 2.20 bawat milyong mga token ng output sa ilalim ng flex, kumpara sa normal na $ 1.10 at $ 4.40. Ang istraktura ng pagpepresyo na ito ay nakahanay sa flex na may mga rate na naitatag para sa OpenAi’s Batch API, na nag-aalok ng isang mahuhulaan na istraktura ng gastos para sa mga gawain na hindi real-time na pagproseso. Ang pagproseso ng flex ay nagpapatakbo sa isang mas mababang-priority na compute queue, na nangangahulugang ang mga tugon ng API ay likas na mas mahaba kaysa sa mga kahilingan na ginawa sa pamamagitan ng karaniwang tier. hindi magagamit .”Kung ang system ay kulang ng sapat na kapasidad kapag dumating ang isang kahilingan sa flex, ibabalik nito ang isang 429 HTTP error code. Mahalaga, nakumpirma ng OpenAI na ang mga developer ay hindi sisingilin para sa mga kahilingan na mabigo sa tiyak na error na ito. Para sa mga application na mapagparaya ng mga pagkaantala, ang muling pagsasaalang-alang sa kahilingan pagkatapos ng isang pag-pause-potensyal na gumagamit ng exponential backoff logic-inirerekomenda. Kung kinakailangan ang napapanahong pagkumpleto, ang pagbagsak sa karaniwang tier ng API ay nananatiling isang pagpipilian. Ang default na 10-minuto na oras sa opisyal na SDK ng OpenAi ay maaaring hindi sapat, at iminumungkahi ng kumpanya ang pagtaas ng oras na ito sa marahil 15 minuto para sa mga kahilingan sa flex. Upang maisaaktibo ang serbisyong ito, dapat tukuyin ng mga developer ang’service_tier=”flex”`parameter sa loob ng kanilang mga tawag sa API. Ipinakilala sa pinahusay na pangangatuwiran at kung ano ang tinatawag na OpenAi na”maagang pag-uugali ng ahente.”Nag-aalok ang pagproseso ng flex ng ibang, mas abot-kayang landas para magamit ng mga developer ang mga modelong ito sa pamamagitan ng API, na angkop para sa mga gawain sa pag-backend kung saan ang gastos ay isang pangunahing driver. Ang paglipat ni Openai upang mabigyan ang mga developer ng mas maraming butil na kontrol sa gastos kumpara sa pagganap. Sinusundan din ng paglulunsad na ito ang iba pang mga kamakailang paglabas na nakatuon sa developer mula sa OpenAI, tulad ng tool na Open-Source Codex CLI, na maaari ring magamit ang mga modelo ng O3 at O4-mini. Habang ang O4-Mini ay malawak na magagamit sa maraming mga tier (1-5), ang mas malakas na modelo ng O3 sa pangkalahatan ay nangangailangan ng mga developer na maging mas mataas na mga tier ng paggasta (4 o 5). Ito ay naaayon sa nakasaad na mga patakaran ng OpenAi na naglalayong tiyakin na ang responsableng paggamit ng platform.

Categories: IT Info