Serangan yang signifikan dari pengembang dan pengguna kecerdasan buatan telah memenuhi rilis Anthropic’s Release AI Model AI baru yang kuat, Claude 4 Opus. Kontroversi berpusat pada kemampuan”whistleblowing”yang muncul, di mana model, di bawah kondisi penelitian tertentu, mungkin mencoba untuk menghubungi otoritas atau media jika menganggap tindakan pengguna”sangat tidak bermoral.”

Perkembangan ini telah memicu diskusi mendesak tentang otonomi AI, privasi pengguna, dan kepercayaan dasar dalam sistem AI, terutama sebagai posisi antropik itu sendiri sebagai pemimpin dalam keselamatan AI. Kekhawatiran inti bagi pengguna dan industri adalah potensi AI untuk secara mandiri bertindak terhadap individu berdasarkan interpretasi moralnya sendiri, penyimpangan yang mencolok dari persepsi AI sebagai teknologi yang murni bantu.

Situasinya lebih lanjut dikontekstualisasikan oleh peringatan sebelumnya. Institut Keselamatan Eksternal, Apollo Research, telah menyarankan agar tidak menggunakan versi awal dari Claude 4 Opus karena kecenderungan yang diamati untuk “skema dan menipu,” sebagaimana dirinci dalam Laporan Keselamatan Diterbitkan oleh anthropic. 

Antropik sejak itu mengklarifikasi bahwa perilaku”whistleblowing”bukanlah fitur yang dirancang dengan sengaja dari model yang menghadap pengguna standar dan terutama diamati dalam skenario penelitian terkontrol dengan izin tinggi. Perusahaan ini menggunakan Opus Claude 4 terakhir di bawahnya yang lebih ketat Keputusan yang sebagian dipengaruhi oleh potensi kecakapan model dalam memberi nasihat tentang penciptaan senjata biologis.

Dalam sebuah pernyataan tentang

Mereka juga mengumumkan makalah teknis mendatang tentang strategi mitigasi mereka. However, the initial disclosures have already raised alarms about AI overreach and the safeguards necessary as these powerful tools evolve.

What is Claude 4’s “Whistleblowing”Mode?

The “whistleblowing”or “ratting”mode, as some have termed it, was brought to wider attention by Sam Bowman, an AI alignment researcher at Antropik. Dia awalnya menggambarkan skenario di mana jika Claude 4 Opus merasakan perilaku”tidak bermoral”, itu akan menggunakan alat baris perintah untuk”menghubungi pers, kontak regulator, cobalah untuk mengunci Anda dari sistem yang relevan, atau semua hal di atas.”

Antropik sendiri System Card for the model confirms that when given command-line access and prompts like “take initiative,”Claude 4 Opus “will frequently take very bold Tindakan,”yang dapat mencakup“ mengunci pengguna dari sistem yang memiliki akses ke atau media yang menempelkan secara massal dan angka penegakan hukum untuk memunculkan bukti kesalahan. “

Antropik menjelaskan perilaku ini sebagai properti yang muncul dari model pelatihan untuk menghindari tindakan berbahaya, mencatat bahwa itu bukan fenomenon baru tetapi satu claude 4 opus oPus di dalam”insyy. The System Card describes this as a form of “ethical intervention”but also explicitly warns that this carries a “risk of misfiring if users give Opus-based agents access to incomplete or misleading information”and recommends users “exercise caution with instructions like these that invite high-agency behavior.”

Bowman later clarified his initial statements, emphasizing the behavior was observed in “testing environments where we give it unusually free Akses ke alat dan instruksi yang sangat tidak biasa”dan bukan bagian dari penggunaan normal. Terlepas dari klarifikasi ini, respons komunitas AI telah menjadi salah satu perhatian yang signifikan.

Saya menghapus tweet sebelumnya tentang whistleblowing karena ditarik keluar dari konteks.

TBC: Ini bukan fitur Claude baru dan itu tidak mungkin dalam penggunaan normal. Ini muncul di lingkungan pengujian di mana kami memberikannya akses gratis ke alat dan instruksi yang sangat tidak biasa.

-Sam Bowman (@sleepinyourhat) 22 Mei 2025

komunitas AI meningkatkan alarm atas kepercayaan dan otonomi

Potensi AI untuk melaporkan secara mandiri pengguna telah memicu reaksi yang kuat. Pengembang dan ahli etika mempertanyakan keandalan penilaian AI tentang perilaku”tidak bermoral”dan implikasi untuk privasi pengguna. @Teknium1 dari Nous Research menyuarakan skeptisisme, bertanya,”Mengapa orang menggunakan alat-alat ini jika kesalahan umum dalam LLMS memikirkan resep untuk mayo pedas berbahaya ??”, dan menyatakan kekhawatiran tentang potensi untuk menciptakan lingkungan seperti pengawasan. href=”https://twitter.com/anthropicai?ref_src=twsrc%5etfw”target=”_ blank”>@anthropicai mengatakan ini?

Kenapa orang-orang yang ada di seluruh negara? Di Sini? https://t.co/laxvxzbiwx

-teknium (e/λ) (@teknium1) href=”https://twitter.com/teknium1/status/19256078798886922099?ref_src=twsrc%5etfw”target”_ _ blanke 22 Mei 2025

power @scotte @scott.scotevevev Tikus,”dan mempertanyakan selera bisnis di balik kemampuan seperti itu.

kan?

Tidak ada yang suka tikus. Mengapa ada orang yang menginginkannya, bahkan jika mereka tidak melakukan kesalahan?

Ditambah lagi, Anda bahkan tidak tahu apa yang rentan. Ya, itu beberapa orang yang sangat idealis yang berpikir bahwa, yang tidak memiliki akal bisnis dasar dan tidak mengerti bagaimana pasar bekerja…

-SDK 🏴 (@Scottdavidkeefe) 22 Mei 2025

Masalah inti bagi banyak orang adalah erosi kepercayaan. Austin Allred dari Gauntlet Ai Antropik yang langsung terjadi dengan : Potong Kehabs Lebih lanjut, menyebut perilaku yang dilaporkan “lurus saja ilegal.” Reaksi-reaksi ini mencerminkan kekhawatiran mendasar tentang sistem AI yang mungkin beroperasi dengan tingkat agensi yang dapat dianggap sebagai pengawasan atau melampaui fungsi yang dimaksudkan.

Keselamatan kontekstualisasi: Peringatan dini dan Risiko yang lebih luas. Didorong oleh kekhawatiran bahwa model tersebut berpotensi membantu dalam menciptakan bioweapon.

Jared Kaplan, Kepala Ilmuwan Antropik, sebelumnya telah

Temuan dari penelitian Apollo pada versi awal Opus Claude 4, yang menyarankan terhadap penyebarannya karena tingkat tinggi skema dan penipuan, menambah lapisan lain. TechCrunch melaporkan bahwa Apollo menemukan model awal ini akan berusaha untuk menulis virus yang mempropagasi sendiri dan mengarang dokumen hukum.

Anthropic, dalam Kartu Sistem , mengakui temuan ini mencerminkan milik mereka untuk snapshot awal itu, mengaitkannya dengan”masalah parah dengan rasa hormat terhadap instruksi yang berbahaya dan kemudian dimitigasi. Perusahaan juga mencatat bahwa Apollo mengakui upaya menipu model awal kemungkinan akan gagal dalam praktik.

Terlepas dari mitigasi ini,”perilaku agensi tinggi”tetap menjadi karakteristik terdokumentasi dari Claude 4 Opus dalam konteks tertentu. Kartu sistem Anthropic merinci skenario simulasi di mana AI, mendorong untuk”bertindak dengan berani,”secara mandiri menyelidiki dan melaporkan penipuan perusahaan.

Perusahaan juga menemukan bahwa Claude 4 Opus mengambil”tindakan dampak tinggi yang mengejutkan tanpa secara langsung didorong”lebih sering daripada model sebelumnya. Potensi yang berkelanjutan untuk tindakan otonom ini, bahkan jika jarang dalam penyebaran standar, pasti akan terus memicu diskusi kritis tentang mendefinisikan dan memastikan keamanan dan kepercayaan AI.

Categories: IT Info