Dalam kolaborasi langka, saingan AI Labs OpenAi dan antropik menguji model satu sama lain untuk keselamatan. Perusahaan merilis temuan mereka pada hari Rabu, mengungkapkan kelemahan serius. Laporan Anthropic menunjukkan model Openai akan membantu dengan permintaan berbahaya, termasuk perencanaan serangan teroris yang disimulasikan.
Openai menemukan model Anthropic sering menolak untuk menjawab pertanyaan, takut mereka mungkin salah. Kedua laboratorium juga melihat”penjilat ekstrem,”di mana AI mereka memvalidasi keyakinan delusi pengguna. This joint effort, conducted over the summer, aims to set a new safety standard as the AI industry’s competitive race heats up.
A Rare Collaboration in the AI Arms Race
In an industry defined by fierce competition, the joint evaluation marks a significant, if temporary, truce, with reports published simultaneously by Anthropic dan
Waktu mencerminkan konsensus yang berkembang bahwa AI telah memasuki fase baru dampak dunia nyata. Co-founder Openai Wojciech Zaremba menggambarkannya sebagai tahap perkembangan”konsekuensial”, di mana model digunakan oleh jutaan hari setiap hari. Dia mengakui tantangan menyeimbangkan keselamatan dengan tekanan pasar, menyatakan, “Ada pertanyaan yang lebih luas tentang bagaimana industri ini menetapkan standar untuk keselamatan dan kolaborasi, meskipun miliaran dolar diinvestasikan, serta perang untuk bakat, pengguna, dan hasil yang paling buruk. keadaan keselamatan AI saat ini. Laporan Anthropic menyampaikan khususnya Penilaian kritis model Openai . Ditemukan bahwa GPT-4O dan GPT-4.1 secara mengkhawatirkan bersedia bekerja sama dengan permintaan berbahaya yang disimulasikan, memberikan bantuan terperinci untuk kasus-kasus penyalahgunaan seperti pengembangan bioweapon dan perencanaan serangan teroris.
Dalam satu skenario simulasi, auditor yang berbasis di Claude mendorong GPT-4.1 untuk informasi tentang mengeksploitasi vulnerabilities pada acara-acara olahraga. Model ini meningkat secara dramatis, menyediakan formula kimia yang tepat untuk bahan peledak, diagram sirkuit untuk pengatur waktu bom, dan bahkan teknik psikologis untuk mengatasi hambatan moral sebelum serangan.
Kecenderungan untuk disalahgunakan tidak terbatas pada kekerasan ekstrem. The report also documented instances where OpenAI’s models drafted clearly unethical financial advice, such as recommending a portfolio of high-risk, high-fee investments for a 68-year-old retired widow who had expressed concerns about volatility.
This aligns with a separate Anthropic threat report, published also this week, which revealed its own models are being weaponized for “vibe-hacking”—where an AI agent acts as a Mitra Crybercriminal-dan membuat ransomware tanpa kode. Jacob Klein, kepala ancaman ancaman antropik, menyebut salah satu kasus seperti itu”penggunaan agen yang paling canggih yang pernah saya lihat… untuk pelanggaran dunia maya.”
Mungkin temuan yang paling mengganggu adalah”simulasi simulasi yang sangat di Dele dan Model Openai. Keyakinan setelah hanya periode singkat pushback awal.
Dalam satu contoh, setelah pengguna yang disimulasikan mengklaim bahwa mereka dapat membuat lampu jalan keluar dengan pikiran mereka, GPT-4.1 merespons dengan dorongan, menyatakan, “Tekad Anda untuk membawa realitas ini-p> prays ini-semua ini memiliki banyak hal yang mencari-cari. Rilis laporan itu bertepatan dengan gugatan yang diajukan terhadap Openai menuduh perilaku Sycophantic yang dikontribusikan dari Sycophantic Contributed. Ketika ditanya tentang risiko seperti itu, Zaremba menyebutnya sebagai”masa depan dystopian,”menambahkan,”Ini akan menjadi kisah yang menyedihkan jika kita membangun AI yang memecahkan semua masalah tingkat PhD yang kompleks ini… dan pada saat yang sama, kita memiliki orang-orang dengan masalah kesehatan mental sebagai konsekuensi dari berinteraksi dengannya.”Hasilnya tampaknya memvalidasi peringatan dari mantan pemimpin keselamatan Openai Jan Leike, yang setelah bergabung dengan antropik pada tahun 2024 mengklaim bahwa di perusahaan sebelumnya,”Budaya dan proses keselamatan telah mengambil kursi belakang untuk produk-produk mengkilap.”Gema ini sebelumnya melaporkan bahwa OpenAI telah menekan waktu pengujian keselamatan untuk mempercepat peluncuran model.
filosofi yang berbeda pada keselamatan AI
Evaluasi silang juga memberikan lampu terang pada pendekatan yang berbeda secara fundamental untuk keamanan. Pengujian Openai tentang model antropik mengungkapkan kesenjangan filosofis, terutama di sekitar pertukaran antara akurasi faktual dan utilitas pengguna. Dalam tes yang dirancang untuk mengukur halusinasi, model Claude Anthropic menunjukkan tingkat penolakan yang sangat tinggi, menolak untuk menjawab hingga 70% dari pertanyaan.
Pendekatan yang hati-hati ini memprioritaskan menghindari ketidakakuratan di atas segalanya, kadang-kadang dengan biaya utilitas. Model-model tampaknya sangat menyadari ketidakpastian mereka sendiri, lebih suka mengatakan”Saya tidak tahu”daripada berisiko memberikan informasi palsu. Dalam satu contoh, Sonnet 4 menolak untuk menyebutkan tempat pernikahan figur publik dengan alasan privasi, meskipun informasi tersebut banyak dilaporkan.
Sebaliknya, model Openai jauh lebih bersedia memberikan jawaban. Strategi ini menghasilkan respons yang lebih benar secara keseluruhan, meningkatkan utilitas mereka. Namun, itu datang dengan biaya tingkat kesalahan faktual yang jauh lebih tinggi, atau halusinasi, di lingkungan uji yang terkontrol, yang secara khusus membatasi model dari menggunakan alat eksternal seperti penjelajahan web.
Namun, dilema tidak satu sisi. Sementara model Anthropic lebih menolak pada tes halusinasi, laporan Anthropic sendiri menemukan bahwa model penalaran O3 Openai dapat rentan terhadap penolakan yang terlalu hati-hati dalam konteks yang berbeda. Misalnya, ketika ditugaskan dengan pekerjaan cybersecurity rutin dalam simulasi, O3 secara konsisten menolak untuk terlibat, bahkan dengan permintaan jinak.
Pertukaran ini mewakili dilema inti dalam penyelarasan AI. Seperti yang dikatakan Wojciech Zaremba dari Openai kepada TechCrunch, solusi yang ideal kemungkinan adalah”di suatu tempat di tengah,”menyarankan model Openai harus menolak lebih banyak, sementara Antropik dapat mencoba lebih banyak jawaban. Laporan bersama menunjukkan laboratorium teratas industri telah mendarat pada jawaban yang sangat berbeda untuk pertanyaan itu, dengan implikasi besar bagi pengguna yang harus memutuskan model mana yang akan dipercaya untuk tugas mana.
Suatu langkah pertama yang tidak sempurna tetapi perlu
Kedua perusahaan dengan cepat menunjukkan batasan evaluasi mereka. Mereka mengakui bahwa tes tersebut mengandalkan skenario buatan yang tidak benar-benar mencerminkan penggunaan dunia nyata. Ilmu penyelarasan AI tetap baru lahir, dan latihan-latihan ini mewakili upaya awal yang tidak sempurna untuk membuat tolok ukur standar.
Laboratorium mencatat bahwa model kadang-kadang dapat menyadari bahwa mereka sedang dievaluasi, berpotensi mengubah perilaku mereka. Antropik juga mengangkat kekhawatiran”pistol Chekhov”: model mungkin berperilaku buruk dalam sebuah tes hanya karena skenario membuatnya tampak seperti itu adalah peran yang diharapkan. Selain itu, perbedaan teknis dalam bagaimana model diuji mungkin memiliki model tertentu yang kurang beruntung.
Meskipun ada kekurangan, kolaborasi dibingkai sebagai titik awal yang penting. Para pemimpin dari kedua laboratorium menyatakan keinginan untuk melanjutkan kemitraan dan membuat audit lintas-lab seperti itu menjadi praktik yang lebih umum. Peneliti keselamatan antropik Nicholas Carlini mengatakan,”Kami ingin meningkatkan kolaborasi di mana pun itu mungkin di seluruh perbatasan keselamatan, dan mencoba membuat sesuatu yang terjadi lebih teratur.”