Serangan balik yang signifikan dari pemaju kecerdasan buatan dan pengguna telah memenuhi pelepasan Anthropic model AI baru yang kuat, Claude 4 Opus. Kontroversi berpusat pada keupayaan”pemberi maklumat”yang muncul, di mana model, di bawah keadaan penyelidikan tertentu, mungkin cuba menghubungi pihak berkuasa atau media jika ia menganggap tindakan pengguna”tidak bermoral.”
Perkembangan ini telah mencetuskan perbincangan segera mengenai autonomi AI, privasi pengguna, dan kepercayaan asas dalam sistem AI, terutamanya sebagai kedudukan antropik itu sendiri sebagai pemimpin dalam keselamatan AI. Kebimbangan utama bagi pengguna dan industri adalah potensi untuk AI untuk bertindak secara autonomi terhadap individu berdasarkan tafsiran moralnya sendiri, pemergian dari persepsi AI sebagai teknologi semata-mata bantuan.
Institut Keselamatan Luar, Penyelidikan Apollo, telah menasihatkan untuk menggunakan versi awal Claude 4 opus kerana kecenderungannya yang diperhatikan untuk”skim dan menipu,”seperti yang terperinci dalam
Anthropic sejak itu menjelaskan bahawa tingkah laku”pemberi maklumat”bukanlah ciri yang direka dengan sengaja dari model yang dihadapi pengguna standard dan terutamanya diperhatikan dalam senario penyelidikan terkawal dengan keizinan yang tinggi. Syarikat itu mengerahkan claude 4 opus akhir di bawah ketatnya
Ia muncul dalam persekitaran ujian di mana kami memberikan akses yang luar biasa percuma kepada alat dan arahan yang sangat luar biasa.
-Sam Bowman (@Sleepinyourhat) 22 Mei, 2025
Komuniti AI menimbulkan penggera ke atas kepercayaan dan autonomi
Potensi untuk AI untuk melaporkan pengguna secara autonomi telah mencetuskan tindak balas yang kuat. Pemaju dan etika mempersoalkan kebolehpercayaan penghakiman AI terhadap tingkah laku”tidak bermoral”dan implikasi untuk privasi pengguna. @Teknium1 dari penyelidikan nous menyuarakan skeptisisme, bertanya,”Kenapa orang menggunakan alat ini jika kesilapan biasa dalam LLMS adalah resipi berfikir untuk mayo pedas adalah berbahaya?”, Dan menyatakan kebimbangan mengenai potensi untuk mewujudkan persekitaran seperti pengawasan. href=”https://twitter.com/anthropicai?ref_src=twsrc%5etfw”target=”_ blank”>@anthropicai kata ini? di sini? https://t.co/laxvxzbiwx
-Teknium (e/λ) (@teknium1)
betul?
Tiada siapa yang suka tikus. Kenapa ada yang mahu seseorang dibina, walaupun mereka tidak melakukan apa-apa yang salah?
Yeah that’s some pretty idealistic people thinking that, who have no basic business sense and don’t understand how markets work…
— SDK 🏴 (@ScottDavidKeefe) 22 Mei, 2025
Isu teras bagi banyak adalah hakisan kepercayaan. Austin Allred dari Gauntlet ai Memanggil tingkah laku yang dilaporkan “Hanya lurus ke atas.” Reaksi-reaksi ini mencerminkan kebimbangan asas mengenai sistem AI yang mungkin beroperasi dengan tahap agensi yang boleh dianggap sebagai pengawasan atau penangguhan fungsi yang dimaksudkan. Model ini berpotensi membantu dalam mencipta bioweapons.
Jared Kaplan, Ketua Saintis Anthropic, sebelum ini
antropik, dalamnya kad sistem , mengakui penemuan ini mencerminkan mereka sendiri untuk gambaran awal itu, yang mengaitkannya dengan”isu-isu yang teruk dengan penangguhan terhadap arahan sistem yang berbahaya”yang kemudiannya dikurangkan. Syarikat itu juga menyatakan bahawa Apollo mengakui usaha menipu model awal mungkin gagal dalam amalan. Kad sistem Anthropic memperincikan senario simulasi di mana AI, yang diminta untuk”bertindak dengan berani,”secara autonomi menyiasat dan melaporkan penipuan korporat. Potensi yang berterusan untuk tindakan autonomi, walaupun jarang berlaku dalam penggunaan standard, pasti akan terus memacu perbincangan kritikal mengenai menentukan dan memastikan keselamatan dan kepercayaan AI.