OpenAI telah memperkenalkan pemprosesan Flex, peringkat perkhidmatan API yang berbeza yang bertujuan untuk pemaju mencari cara yang lebih ekonomik untuk menggunakan model penalaran O3 dan O4-mini syarikat. Diumumkan secara rasmi pada 17 April, 2025, dan kini boleh didapati dalam beta, pilihan ini dengan ketara mengurangkan kos per-token berbanding dengan kadar API standard, menjadikan AI maju yang lebih banyak boleh diakses untuk aplikasi tertentu, walaupun ia datang dengan prestasi perdagangan. The Flex Processing Documentation Mata untuk menggunakan kes-kes seperti”Penilaian Model, Pengayaan Data dan Beban Kerja Asynchronous”sebagai calon yang ideal. Ia dibentangkan sebagai penyelesaian untuk pekerjaan yang lebih rendah atau tidak pengeluaran di mana penjimatan kos melebihi keperluan untuk kelajuan. Bagi model O3, pemaju yang menggunakan Flex akan membayar token input $ 5 per juta dan token output $ 20 per juta, penurunan tajam dari kadar standard $ 10 dan $ 40, masing-masing. Pengurangan 50% yang sama, harga pada $ 0.55 per juta token input dan $ 2.20 per juta token output di bawah flex, berbanding dengan $ 1.10 dan $ 4.40 biasa. Struktur harga ini menjajarkan flex dengan kadar yang telah ditetapkan untuk API batch OpenAI, yang menawarkan struktur kos yang boleh diramal untuk tugas pemprosesan bukan masa-masa.

Memahami prestasi perdagangan Pemprosesan Flex yang beroperasi pada barisan pengiraan yang lebih rendah, yang bermaksud tindak balas API secara semulajadi akan mengambil masa lebih lama daripada permintaan yang dibuat melalui peringkat standard. Ketidakhadiran .”Jika sistem tidak mempunyai kapasiti yang mencukupi apabila permintaan Flex tiba, ia akan mengembalikan kod ralat HTTP 429. Yang penting, OpenAI telah mengesahkan bahawa pemaju tidak akan dikenakan bayaran untuk permintaan yang gagal dengan ralat khusus ini.

Untuk mengendalikan syarat-syarat ini, OpenAI mencadangkan pemaju melaksanakan pengendalian ralat yang sesuai. Untuk aplikasi toleran kelewatan, mencuba semula permintaan selepas jeda-berpotensi menggunakan logik backoff eksponen-disyorkan. Sekiranya penyelesaian yang tepat pada masanya diperlukan, kembali ke peringkat API standard tetap menjadi pilihan.

Pemaju juga perlu menjangkakan masa tindak balas yang lebih perlahan dalam logik aplikasi mereka; Masa tamat tempoh 10 minit di SDK rasmi OpenAI mungkin tidak mencukupi, dan syarikat itu mencadangkan peningkatan masa ini untuk mungkin 15 minit untuk permintaan Flex. Untuk mengaktifkan perkhidmatan ini, pemaju mesti menentukan parameter `service_tier=”flex”` dalam panggilan API mereka. Dalam keupayaan, yang diperkenalkan dengan penalaran yang dipertingkatkan dan apa yang disebut OpenAI”tingkah laku agentik awal.”Pemprosesan Flex menawarkan jalan yang berbeza dan lebih berpatutan bagi pemaju untuk menggunakan kuasa model ini melalui API, yang sesuai untuk tugas backend di mana kos adalah pemacu utama.

Flex nampaknya merupakan langkah Openai untuk menyediakan pemaju dengan lebih banyak kawalan berbutir ke atas kos berbanding prestasi. Pelancaran ini juga mengikuti siaran yang berfokus pada pemaju baru-baru ini dari OpenAI, seperti alat CODEX CLI sumber terbuka, yang juga boleh memanfaatkan model O3 dan O4-mini. Walaupun O4-Mini secara meluas tersedia di pelbagai peringkat (1-5), model O3 yang lebih berkuasa secara amnya memerlukan pemaju berada di peringkat perbelanjaan yang lebih tinggi (4 atau 5). Ini konsisten dengan dasar yang dinyatakan OpenAI yang bertujuan untuk memastikan penggunaan platform yang bertanggungjawab.

Categories: IT Info