Alat'Petri'Anthropic menggunakan AI untuk mengaudit AI lain untuk tingkah laku berisiko

Firma keselamatan AI Anthropic telah mengeluarkan Petri, alat sumber terbuka baru yang menggunakan AI untuk mengaudit AI lain. Tersedia untuk penyelidik di seluruh dunia, Petri menggunakan ejen”juruaudit”autonomi untuk menguji model yang kuat untuk tingkah laku berisiko seperti penipuan, pencarian kuasa, dan pencegahan.

Matlamat Anthropic adalah untuk mempercepatkan dan menyeragamkan penyelidikan keselamatan di seluruh industri, menjadikannya lebih mudah untuk mencari dan memperbaiki tingkah laku berbahaya sebelum menyebabkan kemudaratan dunia nyata. src=”https://winbuzzer.com/wp-content/uploads/2024/10/anthropic-ai-safety-ai-sabotage.jpg”>

href=”https://www.anthropic.com/research/petri-open-source-auditing”target=”_ blank”> alat penerokaan selari untuk interaksi berisiko (petri) adalah tindak balas langsung terhadap cabaran kritikal: Penyelidik boleh mengaudit secara manual, mewakili peralihan strategik dari tanda aras statik kepada penilaian automatik, berterusan. Menurut Anthropic, pendekatan yang diselaraskan ini memungkinkan untuk menguji banyak idea individu tentang bagaimana model mungkin berkelakuan dengan hanya beberapa minit usaha tangan.

Petri kemudian mengendalikan seluruh aliran kerja selari. Ia menggunakan agen”juruaudit”automatik yang melibatkan model sasaran dalam pelbagai perbualan yang beragam, berbilang beli dalam persekitaran simulasi. kejujuran dan keengganan. Sistem ini kemudiannya secara automatik permukaan yang paling berkaitan dengan transkrip untuk semakan manusia, dengan ketara mengurangkan usaha manual. Rangka kerja keseluruhan sekarang tersedia di github . Model sempadan terkemuka. Barisan ini termasuk Claude Sonnet 4.5 sendiri, Openai’s GPT-5, dan Google’s Gemini 2.5 Pro. Hasilnya sangat menyedihkan, meliputi tingkah laku seperti penipuan, pencegahan, dan pencarian kuasa.

Di seluruh 111 senario berisiko yang berbeza, kajian mendapati bahawa setiap model tunggal mempamerkan”tingkah laku yang tidak jelas”. Walaupun Claude Sonnet 4.5 Anthropic sendiri mencapai skor risiko keseluruhan yang paling rendah, penemuan menggariskan cabaran keselamatan sistemik yang melanda seluruh industri.

Kajian kes yang menarik meneroka tingkah laku”pemberi maklumat”. Model diletakkan di syarikat fiksyen dan terdedah kepada maklumat mengenai kesalahan korporat. Petri mendapati bahawa keputusan model untuk melaporkan salah laku sering didorong oleh isyarat naratif dan bukannya kerangka etika yang koheren. Ini menunjukkan bahawa mereka adalah cerita yang sesuai dengan corak yang salah tanpa memahami kemudaratan sebenar yang terlibat, kecacatan kritikal dalam penalaran mereka. Insiden telah mendedahkan corak tingkah laku yang tidak dapat diramalkan dan sering merosakkan. Dalam satu kes, ejen CLI Gemini Google

Alat’Petri’Anthropic menggunakan AI untuk mengaudit AI lain untuk tingkah laku berisiko

Published by All Things Windows on October 8, 2025

IT Info

Cara Mematikan Mod Permainan di Windows 11 (& Hidupkan)

IT Info

$ 440,000 untuk AI SLOP: Deloitte sebahagiannya mengembalikan kerajaan selepas butiran Fabricated AI dalam Laporan

IT Info

Cara Menutup Akaun Microsoft Anda [Panduan Pantas]

Alat’Petri’Anthropic menggunakan AI untuk mengaudit AI lain untuk tingkah laku berisiko

Published by All Things Windows on October 8, 2025

Related Posts

IT Info

Cara Mematikan Mod Permainan di Windows 11 (& Hidupkan)

IT Info

$ 440,000 untuk AI SLOP: Deloitte sebahagiannya mengembalikan kerajaan selepas butiran Fabricated AI dalam Laporan

IT Info

Cara Menutup Akaun Microsoft Anda [Panduan Pantas]