OpenAI telah meluncurkan Reinforcement Fine-Tuning (RFT), sebuah kerangka kerja baru yang dirancang untuk memungkinkan penyesuaian model AI untuk aplikasi spesifik industri. Diperkenalkan pada acara “12 Hari OpenAI”OpenAI, RFT memungkinkan pengembang untuk meningkatkan kemampuan penalaran AI dengan kumpulan data dan rubrik evaluasi khusus domain.
Fitur baru ini, yang ditujukan untuk perusahaan dan peneliti, selaras dengan upaya OpenAI yang lebih luas untuk menjembatani kesenjangan antara model AI umum dan kebutuhan industri khusus.
RFT juga disertai dengan peluncuran ChatGPT Pro Plan sejak hari pertama “12 Hari OpenAI”, langganan senilai $200 per bulan yang dirancang untuk para profesional. Paket ini mencakup o1 Pro Mode, yang disebut-sebut sebagai AI OpenAI yang paling andal hingga saat ini. Namun, evaluasi awal o1 Pro Mode mengungkapkan potensi dan keterbatasannya, sehingga menyoroti tantangan yang sedang berlangsung dalam menyempurnakan sistem AI canggih untuk penggunaan praktis.
Apa yang dimaksud dengan Reinforcement Fine-Tuning?
Reinforcement Fine-Tuning adalah pendekatan terbaru OpenAI untuk menyempurnakan model AI dengan melatih model tersebut menggunakan kumpulan data dan sistem penilaian yang disediakan oleh developer. Berbeda dengan pembelajaran terawasi tradisional, yang berfokus pada replikasi keluaran yang diinginkan, RFT menekankan penalaran dan pemecahan masalah yang disesuaikan dengan domain tertentu.
Dalam pengumumannya, OpenAI mendeskripsikan RRFT sebagai alat yang memungkinkan organisasi melatih model ahli tanpa memerlukan pengetahuan mendalam tentang pembelajaran penguatan.
[konten tersemat]
Dini pengadopsinya, seperti Thomson Reuters dan Berkeley Lab, telah menunjukkan kegunaannya, kata OpenAI. Thomson Reuters menggunakan RFT untuk mengembangkan asisten hukum yang mampu menganalisis teks hukum yang kompleks, sementara Berkeley Lab menerapkannya pada penelitian genetika, mengungkap wawasan tentang penyakit langka.
Membangun Inovasi Sebelumnya
Mode RFT dan o1 Pro adalah pencapaian terbaru dalam upaya OpenAI untuk menyempurnakan kinerja dan penyelarasan AI. Awal tahun ini, OpenAI memperkenalkan CriticGPT, sebuah alat yang dirancang untuk membantu pelatih manusia dalam mengevaluasi keluaran yang dihasilkan AI.
CriticGPT sangat efektif dalam peninjauan kode, mengidentifikasi kesalahan yang sering diabaikan oleh anotator manusia. Dengan menggabungkan keahlian manusia dan evaluasi AI, OpenAI bertujuan untuk meningkatkan keandalan modelnya.
Pesaing seperti Microsoft juga memajukan metodologi pelatihan AI. Self-Exploring Language Model (SELM) Microsoft memanfaatkan fungsi penghargaan untuk meningkatkan kemampuan mengikuti instruksi.
Antisipasi GPT-4.5
Sebagai OpenAI “12 Kampanye Days of OpenAI”terus berlanjut, dan spekulasi seputar GPT-4.5 semakin meningkat. Diperkirakan akan diluncurkan pada akhir bulan ini, GPT-4.5 dikabarkan menawarkan penalaran yang lebih baik, kemampuan multimodal yang diperluas, dan peningkatan generasi bahasa kreatif. Pengamat industri melihatnya sebagai solusi potensial terhadap keterbatasan o1 Pro Mode, khususnya dalam tugas-tugas yang memerlukan kemampuan beradaptasi dan abstraksi.
Philip, pengembang benchmark SimpleBench yang dihormati, mengomentari potensi GPT-4.5, dengan menyatakan, “Tidak mungkin mereka membenarkan $200 sebulan hanya untuk Mode Pro.” Penambahan GPT-4.5 dapat mendefinisikan kembali proposisi nilai ChatGPT Pro Plan, mengatasi kekurangan saat ini dan memperluas daya tariknya ke audiens yang lebih luas.
Pengenalan RFT dan o1 Pro Mode menandai sebuah langkah maju dalam OpenAI misi untuk menyelaraskan kemampuan AI dengan tuntutan dunia nyata. Meskipun alat ini menjanjikan dalam aplikasi khusus.