Openai menghadapi pertanyaan tajam tentang protokol keselamatannya setelah Laporan Financial Times yang diterbitkan hari ini Laporan Financial DriPlished hari ini
Mengutip delapan sumber yang akrab dengan operasi perusahaan, laporan tersebut menyatakan bahwa jadwal pengujian, yang sebelumnya berlangsung berbulan-bulan, telah dikompresi hingga hari-hari belaka. Akselerasi ini muncul ketika Openai mempersiapkan peluncuran yang akan segera terjadi, mungkin minggu depan, dari model-model baru termasuk O3 yang berfokus pada penalaran, meninggalkan beberapa penguji pihak ketiga dan internal kurang dari seminggu untuk penilaian keamanan penting.
Jadwal yang tergesa-gesa dilaporkan didorong oleh tekanan kompetitif yang intens di dalam bidang AI, sebagai Races Openai seperti google seperti Google Start. Namun, kecepatan telah meningkatkan alarm di antara mereka yang bertugas mengevaluasi model.”Kami memiliki pengujian keselamatan yang lebih menyeluruh ketika [teknologi] kurang penting,”satu orang saat ini menilai model O3 yang akan datang mengatakan kepada The Financial Times.
Another tester, involved with the GPT-4 evaluation in 2023 which spanned six months, recalled that dangerous flaws only emerged well into that longer process, commenting on the current situation:”Mereka sama sekali tidak memprioritaskan keselamatan publik.”Daniel Kokotajlo, seorang mantan peneliti Openai, menyoroti lingkungan yang memungkinkan terburu-buru ini:”Tidak ada peraturan yang mengatakan [perusahaan] harus memberi informasi kepada publik tentang semua kemampuan menakutkan… dan juga mereka berada di bawah banyak tekanan untuk balapan satu sama lain sehingga mereka tidak akan berhenti membuat mereka lebih maha.”CEO Sam Altman mengkonfirmasi”perubahan rencana”pada 4 April, yang menyatakan perusahaan akan merilis model penalaran O3 dan O4-Mini”mungkin dalam beberapa minggu,”mendorong peluncuran GPT-5 yang sangat dinanti kembali dengan”beberapa bulan.”
Ini membalikkan rencana sebelumnya dari Februari untuk mengkonsolidasikan kapabilitas ke GPT-5. Altman menjelaskan bahwa keputusan itu sebagian untuk”memisahkan model penalaran dan model obrolan/penyelesaian,”menambahkan melalui X bahwa”kami sangat senang dengan kinerja yang kami lihat dari O3 secara internal”dan bahwa keterlambatan akan memungkinkan GPT-5 untuk”jauh lebih baik daripada yang sebelumnya, ketika Reference, ketika Referency, ketika Code O’KOB, BABO, BAGUAL, BAGAIMANA, BAHKAN OKUTION, BAGAIMANA OKUTION, BAHAYA REWASUS AKURI, BEGITU, KETIKA ACTERCOR, BAGAIMAN. `o4-mini`, dan` o4-mini-high` dalam pembaruan web chatgpt. Bersamaan dengan itu, laporan menyarankan model multimodal yang diperbarui, secara tentatif bernama GPT-4.1, juga mendekati rilis.
pertanyaan yang masih ada tentang praktik pengujian
Di luar jadwal terkompresi, kekhawatiran khusus tentang kedalaman pengujian Openai telah muncul. Para kritikus mempertanyakan komitmen perusahaan untuk menilai potensi penyalahgunaan, seperti membantu penciptaan bioweapon, melalui penyesuaian. This process involves training a model on specialized datasets (like virology) to see if it develops dangerous capabilities.
Yet, according to former OpenAI safety researcher Steven Adler and others cited by the FT, this detailed testing has been limited, primarily using older models like GPT-4o, with no published results for newer, more capable models like o1 or o3-mini. Menurut Adler, yang pandangannya terperinci Dalam sebuah posting blog, tidak ada yang menggunakan POSITAS POSITAS. Tes dapat berarti Openai dan perusahaan AI lainnya meremehkan risiko terburuk dari model mereka.”Kritik lain melibatkan pengujian versi model sebelumnya, atau”pos pemeriksaan,”daripada kode akhir yang dirilis ke publik.”Ini adalah praktik yang buruk untuk merilis model yang berbeda dari yang Anda evaluasi,”kata seorang mantan anggota staf teknis Openai mengatakan kepada Ft.
Openai membela praktiknya, mengutip efisiensi yang diperoleh melalui otomatisasi dan mengekspresikan kepercayaan pada metodenya. Perusahaan menyatakan bahwa pos pemeriksaan”pada dasarnya identik”dengan rilis akhir dan bahwa model diuji secara menyeluruh, terutama untuk risiko bencana. Johannes Heidecke, Kepala Sistem Keselamatan Openai, menegaskan,”Kami memiliki keseimbangan yang baik tentang seberapa cepat kami bergerak dan seberapa teliti kami.”
Perusahaan juga baru-baru ini meluncurkan tuning tuning penguatan (RFT) -Teknik untuk membuat”model ahli”khusus untuk alur sempit. Inisiatif ini, bagaimanapun, tampak berbeda dari evaluasi keselamatan pra-pelepasan dasar yang dilaporkan disingkat.
Sejarah debat keselamatan internal
Ketegangan antara kecepatan produk dan protokol keselamatan di Openai bukanlah baru. Pada bulan Mei 2024, Jan Leike, yang kemudian memimpin tim superalignment perusahaan yang berfokus pada risiko AI jangka panjang, menyatakan secara publik bahwa selama beberapa tahun terakhir,”Budaya dan proses keselamatan telah mengambil kursi belakang ke produk-produk mengkilap.”Kepergiannya dan kemudian bergabung dengan antropik mengisyaratkan ketidaksepakatan mendalam atas sumber daya dan prioritas mengenai penelitian keselamatan AI jangka panjang. Khususnya, Openai telah mengumumkan pembentukan komite keselamatan dan keamanan yang dipimpin dewan hanya beberapa hari sebelumnya, ditugaskan dengan periode 90 hari untuk mengevaluasi dan mengembangkan proses keselamatan dan membuat rekomendasi.
saingan industri menekankan transparansi dan tata kelola
Openai melaporkan kontras akselerasi baru-baru ini. Pada tanggal 28 Maret, antropik merinci kerangka kerja interpretabilitasnya, sebuah”mikroskop AI”menggunakan Dictionary Learning untuk membedakan model claude-nya. Pembelajaran kamus mencoba untuk merekayasa balik perhitungan internal model, memetakannya ke konsep yang dapat dimengerti. Antropik membingkai ini sebagai hal yang penting untuk kepercayaan. Demikian pula, Google Deepmind mengusulkan kerangka keselamatan AGI global pada 3 April, mengadvokasi pengawasan internasional dan memperlakukan risiko AI lanjutan sebagai segera. Proposal ini mengikuti pembentukan Organisasi Keselamatan dan Penyelarasan AI DeepMind sendiri sebelumnya pada tahun 2024.
lanskap peraturan dan risiko berkelanjutan
Lansekap industri yang lebih luas menunjukkan kompleksitas. Antropik, sambil mendorong aturan AI pemerintah yang lebih kuat pada awal Maret, juga diam-diam menghapus beberapa komitmen keselamatan sukarela sebelumnya yang dibuat di bawah inisiatif Gedung Putih 2023, menggambarkan ketegangan antara posisi publik dan tekanan operasional. Openai sendiri adalah pihak yang melakukan komitmen sukarela dengan pemerintah Inggris dan AS mengenai akses pengujian keselamatan eksternal, sebagaimana disebutkan dalam laporan FT.
Sementara itu, kerangka kerja peraturan sedang dikencangkan, dengan UU AI UE sekarang berlaku, mengamanatkan transparansi yang tidak sesuai dan mitigasi risiko yang tidak sesuai. Kebutuhan untuk pengujian yang kuat digarisbawahi oleh penemuan kerentanan yang sedang berlangsung, seperti eksploitasi”doa alat tertunda”yang ditemukan dalam memori Google Gemini pada bulan Februari, atau teknik jailbreaking yang persisten yang mempengaruhi beberapa model terkemuka. Pengembangan cepat Openai berlanjut meskipun Altman Mengakui tantangan kapasitas potensial awal bulan ini, yang dapat memengaruhi garis waktu dan stabilitas layanan.