Openai telah memperkenalkan Flex Processing, tingkat layanan API yang berbeda yang ditujukan untuk pengembang yang mencari cara yang lebih ekonomis untuk menggunakan model penalaran O3 dan O4-Mini perusahaan. Secara resmi diumumkan pada 17 April 2025, dan saat ini tersedia dalam beta, opsi ini secara signifikan mengurangi biaya per token dibandingkan dengan tarif API standar, membuat AI canggih berpotensi lebih mudah diakses untuk aplikasi tertentu, meskipun dilengkapi dengan pertukaran kinerja.

Tingkat baru ini secara khusus menargetkan tugas di mana hasil segera bukan menjadi perhatian utama. dokumentasi pemrosesan flex Poin untuk menggunakan kasus seperti”evaluasi model, pengayaan data dan beban kerja yang tidak sinkron”sebagai kandidat ideal. Ini disajikan sebagai solusi untuk pekerjaan prioritas rendah atau non-produksi di mana penghematan biaya lebih besar daripada kebutuhan akan kecepatan.

Membandingkan Flex vs Standard Pricing

Pemrosesan Flex Memotong biaya untuk berinteraksi dengan model-model ini secara terprogram dalam dua. Untuk model O3, pengembang yang menggunakan FLEX akan membayar token input $ 5 per juta dan token output $ 20 per juta, penurunan tajam dari tarif standar masing-masing $ 10 dan $ 40. melihat pengurangan 50% yang serupa, dengan harga $ 0,55 per juta token input dan token output $ 2,20 per juta di bawah Flex, dibandingkan dengan $ 1,10 normal dan $ 4,40. Struktur penetapan harga ini menyelaraskan lentur dengan tarif yang sudah ditetapkan untuk API batch Openai, menawarkan struktur biaya yang dapat diprediksi untuk tugas pemrosesan non-real-time.

Memahami pertukaran kinerja

Pengembangan biaya yang signifikan membutuhkan pengembang untuk menerima batasan tertentu. Pemrosesan fleksibel beroperasi pada antrian komputasi prioritas rendah, yang berarti respons API secara inheren akan memakan waktu lebih lama dari permintaan yang dibuat melalui tingkat standar.

Selanjutnya, OpenAi secara eksplisit memperingatkan”.”Jika sistem tidak memiliki kapasitas yang cukup ketika permintaan fleksibel tiba, itu akan mengembalikan kode kesalahan HTTP 429. Yang penting, OpenAI telah mengkonfirmasi bahwa pengembang tidak akan dikenakan biaya untuk permintaan yang gagal dengan kesalahan spesifik ini.

Untuk menangani kondisi ini, Openai menyarankan pengembang menerapkan penanganan kesalahan yang sesuai. Untuk aplikasi yang toleran terhadap penundaan, coba lagi permintaan setelah jeda-berpotensi menggunakan logika backoff eksponensial-direkomendasikan. Jika penyelesaian tepat waktu diperlukan, jatuh kembali ke tingkat API standar tetap menjadi opsi.

Pengembang juga perlu mengantisipasi waktu respons yang lebih lambat dalam logika aplikasi mereka; Batas waktu 10 menit default dalam SDK resmi Openai mungkin tidak mencukupi, dan perusahaan menyarankan meningkatnya batas waktu ini menjadi mungkin 15 menit untuk permintaan fleksibel. Untuk mengaktifkan layanan ini, pengembang harus menentukan `service_tier=”flex”` parameter dalam panggilan API mereka.

Konteks: O3/O4-Mini Model dan Dinamika Pasar

Ini berarti bahwa dalam lingkungan chatgpt interaktif untuk pelanggan, model-model ini “sekarang dapat secara mandiri memutuskan alat mana yang akan digunakan dan kapan, tanpa meminta pengguna,” secara otonom memilih kemampuan seperti penjelajahan web atau eksekusi kode. Pemrosesan Flex menawarkan jalur yang berbeda dan lebih terjangkau bagi pengembang untuk memanfaatkan kekuatan model-model ini melalui API, cocok untuk tugas-tugas backend di mana biaya adalah pendorong utama.

Suksesi cepat rilis model dan tingkat harga baru ini terjadi di tengah-tengah pinjaman. BE Langkah Openai untuk memberikan pengembang dengan kontrol yang lebih granular atas biaya versus kinerja. Peluncuran ini juga mengikuti rilis baru-baru ini yang berfokus pada pengembang dari OpenAI, seperti alat CLI kodeks open-source, yang juga dapat memanfaatkan model O3 dan O4-mini.

Persyaratan akses API

Akses Programatik ke Model yang Lebih Baru ini melalui API adalah subjek tertentu pada kondisi tertentu. Sementara O4-Mini secara luas tersedia di berbagai tingkatan (1-5), model O3 yang lebih kuat umumnya mengharuskan pengembang untuk berada di tingkat pengeluaran yang lebih tinggi (4 atau 5).

Namun, OpenAi memungkinkan pengguna dalam tingkatan yang lebih rendah (1-3) untuk mendapatkan akses API ke O3, termasuk kemampuan terkait seperti ringkasan penalaran dan dukungan streaming. Ini konsisten dengan kebijakan Openai yang dinyatakan yang ditujukan untuk memastikan penggunaan platform yang bertanggung jawab.