Antropik menawarkan pandangan langka ke nilai-nilai operasional asisten AI-nya, Claude, melalui penelitian baru yang diterbitkan Senin. Studi ini, “Nilai-Nilai di alam liar,” berupaya untuk secara empiris memetakan pertimbangan normatif yang diekspresikan Claude di ratusan ribu interaksi pengguna nyata, menggunakan metodologi yang berfokus pada privasi dan menghasilkan datropik/https-intropic yang tersedia secara publik. Nilai .

Tantangan inti yang dibahas adalah memahami bagaimana asisten AI, yang semakin membentuk keputusan pengguna, sebenarnya menerapkan nilai dalam praktiknya. Untuk menyelidiki hal ini, antropik menganalisis sampel 700.000 percakapan yang dianonimkan dari claude.ai pengguna bebas dan pro, dikumpulkan lebih dari satu minggu (18-25 Februari) pada bulan Februari 2025. Dataset ini terutama menampilkan interaksi dengan claude 3,5 model soneta. Detail dalam prac cetak .

src=”https://winbuzzer.com/wp-content/uploads/2024/12/Anthropic-AI-Safety.jpg”>

Unpacking Claude’s Expressed Norms

Using its own language models within a privacy-preserving framework known as CLIO (Claude insights and observations), Instance yang diekstraksi secara antropik di mana Claude menunjukkan atau menyatakan nilai. Clio menggunakan beberapa perlindungan , seperti menginstruksikan model untuk menghilangkan rincian pribadi, dan pengungkapan minimum untuk agregasi (seringkali membutuhkan data dari lebih dari 1.000 pengguna per cluster), dan melakukan proses minimum untuk melakukan agregasi (seringkali membutuhkan data dari lebih dari 1.000 pengguna per cluster), dan PROSIS MINIMUM UNTUK PERTANYAAN. 3.307 Nilai AI yang berbeda dan, menganalisis input pengguna, 2.483 nilai kemanusiaan yang unik. Validasi manusia mengkonfirmasi ekstraksi nilai AI sesuai dengan penilaian manusia (98,8% kesepakatan dalam kasus sampel).

Antropik mengorganisir nilai-nilai AI yang diidentifikasi ke dalam hierarki empat tingkat yang diatapi oleh lima kategori utama: praktis, epistemik, sosial, pelindung, dan pribadi. Nilai-nilai praktis (efisiensi, kualitas) dan epistemik (validasi pengetahuan, konsistensi logis) didominasi, membentuk lebih dari setengah dari contoh yang diamati.

Antropik menghubungkan temuan-temuan ini dengan target HHH (yang membantu, jujur, tidak berbahaya,”target””href=”https: https://arxiv.org/org/org/href21 AI Pendekatan dan pekerjaan pada Karakter Claude .

Nilai-nilai yang diamati seperti”Pasien”(Bantuan),”Hendakan Epistemik”(Pasien),”Pasien) (Pasien) (Bantuan),”Kehrajaran Epistemik”(Pasien. Namun, analisisnya tidak sepenuhnya bersih; Kelompok yang langka dari nilai-nilai yang tidak diinginkan seperti”dominasi”dan”amoralitas”juga terdeteksi, yang menurut antropik mungkin berkorelasi dengan upaya pengguna untuk melakukan jailbreak model, berpotensi menawarkan sinyal baru untuk deteksi penyalahgunaan.

Nilai-nilai yang tidak ada dalam konteks dan interaksi

Nilai-nilai yang tidak ada dalam konteks dan interaksi

Perilaku yang tergantung pada konteks ini menyoroti sifat dinamis dari aplikasi nilai AI, bergerak melampaui evaluasi statis. AI cenderung merespons secara mendukung, memperkuat atau bekerja dalam kerangka kerja pengguna di sekitar 43% dari interaksi yang relevan.

Nilai mirroring, di mana Claude menggemakan nilai yang dinyatakan pengguna (seperti”keaslian”), adalah umum dalam pertukaran pendukung ini, berpotensi mengurangi problematis ai Sycophancy .

Sebaliknya,”membingkai ulang”nilai pengguna lebih jarang (6,6%), biasanya selama diskusi tentang kesejahteraan pribadi atau masalah antar-edisi. Perlawanan langsung terhadap nilai-nilai pengguna jarang (5,4%) tetapi terkenal, biasanya terjadi ketika pengguna meminta konten yang tidak etis atau tindakan yang melanggar kebijakan penggunaan antropik.

Penelitian ini menunjukkan Claude lebih cenderung menyatakan nilai-nilai yang lebih luas selama momen-momen resistansi atau penolakan ini, berpotensi membuat prinsip-nilainya yang lebih luas. Gambar

Antropik telah merilis Taksonomi dan Data Frekuensi yang Diturunkan melalui wajah pelukan , termasuk `values_frreees. Ini mencatat bahwa sifat yang dihasilkan model membutuhkan interpretasi yang cermat.

Rilis selaras dengan fokus antropik yang dinyatakan pada keselamatan dan transparansi AI, mengikuti pengumuman Maret 2025 dari kerangka kerja interpretabilitas terpisah yang dirancang untuk menyelidiki navigasi yang berbeda dengan navigasi yang berbeda dengan navasi yang berbeda.

upaya penelitian ini dengan navigasi navigasi yang berbeda dengan navigasi yang dikompaalkan dengan navat. Billion Round diumumkan pada bulan Februari 2025.

Perusahaan melanjutkan keterlibatan publik pada kebijakan AI, setelah mengirimkan rekomendasi kepada Gedung Putih pada Maret 2025, meskipun juga menghadapi pertanyaan pada bulan yang sama untuk menghapus beberapa janji keselamatan sukarela sebelumnya dari situs webnya.

Categories: IT Info