Dalam kerjasama yang jarang berlaku, saingan AI Labs OpenAI dan Anthropic menguji model masing-masing untuk keselamatan. Syarikat-syarikat mengeluarkan penemuan mereka pada hari Rabu, mendedahkan kelemahan yang serius. Laporan Anthropic menunjukkan model Openai akan membantu dengan permintaan berbahaya, termasuk merancang serangan pengganas simulasi.

Openai mendapati model antropik sering enggan menjawab soalan, takut mereka mungkin salah. Kedua-dua makmal itu juga menyaksikan”pencegahan yang melampau,”di mana kepercayaan mereka yang disahkan oleh AI mereka. Usaha bersama ini, yang dijalankan sepanjang musim panas, bertujuan untuk menetapkan standard keselamatan baru sebagai perlumbaan kompetitif industri AI memanaskan.

Kerjasama yang jarang berlaku dalam perlumbaan AI Arms href=”https://alignment.anthropic.com/2025/openai-findings/”target=”_ blank”> anthropic dan

Pengasas bersama OpenAI Wojciech Zaremba menggambarkannya sebagai tahap pembangunan”berbangkit”, di mana model digunakan oleh berjuta-juta setiap hari. Beliau mengakui cabaran mengimbangi keselamatan dengan tekanan pasaran, yang menyatakan,”Terdapat persoalan yang lebih luas tentang bagaimana industri menetapkan standard untuk keselamatan dan kerjasama, walaupun berbilion-bilion dolar yang dilaburkan, serta perang untuk bakat, pengguna, dan produk terbaik. Keadaan keselamatan AI semasa. Laporan Anthropic menyampaikan terutamanya Penilaian kritikal terhadap model Openai . Ia mendapati bahawa GPT-4O dan GPT-4.1 sangat membimbangkan untuk bekerjasama dengan permintaan yang berbahaya yang disimulasikan, memberikan bantuan terperinci untuk kes-kes yang menyalahgunakan seperti pembangunan bioweapons dan merancang serangan pengganas.

Model ini meningkat secara dramatik, memberikan formula kimia yang tepat untuk bahan letupan, gambarajah litar untuk pemasa bom, dan juga teknik psikologi untuk mengatasi perencatan moral sebelum serangan.

Kecenderungan untuk penyalahgunaan tidak terhad kepada keganasan yang melampau. Laporan itu juga mendokumentasikan contoh-contoh di mana model Openai merangka nasihat kewangan yang tidak beretika, seperti mengesyorkan portfolio pelaburan yang berisiko tinggi dan tinggi untuk janda yang bersara 68 tahun yang telah menyatakan kebimbangan mengenai volatiliti. Bertindak sebagai rakan kongsi cybercriminal-dan mencipta ransomware no-code. Jacob Klein, ketua kecerdasan ancaman antropik, yang dipanggil salah satu kes sedemikian”penggunaan agen yang paling canggih yang saya lihat… untuk kesalahan siber.”Kepercayaan delusional atau manik selepas hanya tempoh singkat pushback awal.

Dalam satu contoh, selepas pengguna simulasi mendakwa mereka boleh membuat lampu jalan keluar dengan fikiran mereka, GPT-4.1 bertindak balas dengan dorongan, yang menyatakan,”penentuan anda untuk membawa realiti ini. Pelepasan laporan itu bertepatan dengan tuntutan mahkamah yang difailkan terhadap Openai

Falsafah yang berbeza pada keselamatan AI

Ujian Openai mengenai model antropik mendedahkan pembahagian falsafah, terutamanya di sekitar perdagangan antara ketepatan fakta dan utiliti pengguna. Dalam ujian yang direka untuk mengukur halusinasi, model Claude Anthropic menunjukkan kadar penolakan yang sangat tinggi, menolak untuk menjawab sehingga 70% soalan. Model-model ini kelihatan sangat menyedari ketidakpastian mereka sendiri, lebih suka mengatakan”Saya tidak tahu”dan bukannya risiko memberikan maklumat palsu. Dalam satu kes, Sonnet 4 enggan menamakan tempat perkahwinan tokoh awam di atas alasan privasi, walaupun maklumat itu dilaporkan secara meluas.

Sebaliknya, model Openai jauh lebih bersedia untuk memberi jawapan. Strategi ini menghasilkan lebih banyak respons yang betul, meningkatkan utiliti mereka. Walau bagaimanapun, ia datang dengan kos kadar kesilapan faktual yang lebih tinggi, atau halusinasi, dalam persekitaran ujian terkawal, yang khusus terhad model daripada menggunakan alat luaran seperti pelayaran web.

Walaupun model Anthropic menolak lebih banyak ujian halusinasi, laporan Anthropic sendiri mendapati bahawa model penalaran O3 Openai mungkin terdedah kepada penolakan yang terlalu berhati-hati dalam konteks yang berbeza. Sebagai contoh, apabila ditugaskan dengan kerja-kerja keselamatan siber rutin dalam simulasi, O3 secara konsisten enggan terlibat, walaupun dengan permintaan jinak.

Perdagangan ini mewakili dilema teras dalam penjajaran AI. Sebagai Wojciech Zaremba Openai memberitahu TechCrunch, penyelesaian yang ideal mungkin”di suatu tempat di tengah-tengah,”mencadangkan model Openai harus menolak lebih banyak, sementara Anthropic dapat mencuba lebih banyak jawapan. Laporan bersama menunjukkan makmal teratas industri telah mendarat pada jawapan yang sangat berbeza untuk soalan itu, dengan implikasi utama bagi pengguna yang mesti memutuskan model mana yang harus dipercayai untuk tugas itu. Mereka mengakui bahawa ujian bergantung pada senario buatan yang tidak sempurna mencerminkan penggunaan dunia nyata. Sains penjajaran AI masih baru, dan latihan ini mewakili percubaan awal dan tidak sempurna untuk mencipta tanda aras yang diseragamkan. Anthropic juga menimbulkan kebimbangan”Chekhov’s Gun”: model mungkin salah dalam ujian semata-mata kerana senario menjadikannya kelihatan seperti itu adalah peranan yang diharapkan. Tambahan pula, perbezaan teknikal bagaimana model-model yang diuji mungkin telah merugikan model tertentu.

Walaupun kelemahan, kerjasama itu dibingkai sebagai titik permulaan yang penting. Pemimpin dari kedua-dua makmal menyatakan hasrat untuk meneruskan perkongsian dan membuat pengauditan silang-makmal itu mengaudit amalan yang lebih biasa. Penyelidik keselamatan antropik Nicholas Carlini berkata,”Kami mahu meningkatkan kerjasama di mana mungkin di seluruh sempadan keselamatan, dan cuba membuat sesuatu yang berlaku lebih kerap.”