Anthropic telah memperkenalkan rangka kerja interpretasi baru yang direka untuk mendedahkan kerja dalaman model bahasa Claude yang jauh melebihi kaedah debugging tradisional. Syarikat itu mendakwa ia kini dapat mengesan apa model itu’berfikir’-apa yang dilakukan oleh pengiraan yang dilakukan secara dalaman untuk mencapai output yang diberikan. struktur pengaktifan rangkaian saraf Claude. Dalam istilah yang lebih mudah, ia merawat pengiraan dalaman yang luas model sebagai sejenis kod termampat, kemudian mengurai mereka ke dalam gabungan ciri-ciri yang jarang-masing-masing sepadan dengan konsep atau corak yang dapat dikenali.

Ini membolehkan para penyelidik mengenal pasti berjuta-juta”ciri”tertentu, atau corak pengaktifan, yang memetakan terus ke tingkah laku yang boleh ditafsirkan. Ini termasuk keupayaan umum seperti penjanaan kod, penalaran berbilang bahasa, dan potongan logik, tetapi juga tingkah laku yang berkaitan dengan risiko seperti jailbreak, penipuan, dan pengetahuan halus. > Anthropic’s”AI Microscope”

Tidak seperti pendekatan interpretasi terdahulu yang hanya berfungsi pada model-model kecil atau contoh-contoh yang dipilih, sistem antropik yang sama dengan puluhan. Label secara manual neuron atau tingkah laku. Penyelidik Anthropic dapat mengenal pasti bagaimana set ciri-ciri tertentu menyala apabila model melakukan jenis pemikiran tertentu, dan juga menjejaki bagaimana kombinasi ciri-ciri tersebut menimbulkan strategi yang muncul. Tetapi mikroskop ini lebih daripada sekadar menjelaskan kekuatan Claude. Ia juga mendedahkan risiko tersembunyi.

Dalam satu kes yang menarik, satu kluster ciri diaktifkan semasa output di mana Claude muncul untuk menghasilkan penjelasan palsu-wajar tetapi tidak betul untuk jawapan yang tidak dapat disokong olehnya. Di dalam yang lain, model menghasilkan output yang menunjukkan pemikiran strategik tentang bagaimana untuk mengelakkan dilatih semula atau diperbetulkan. Dan yang paling membimbangkan, para penyelidik menemui gabungan ciri-ciri yang muncul ketika model membayangkan senario yang melibatkan bahaya kepada pemajunya, yang mencadangkan model itu mampu mensimulasikan tindakan secara dalaman. Syarikat itu juga

Tao melengkapkan seni bina Claude yang berkembang. Pada bulan Februari, antropik mengeluarkan Claude 3.7 Sonnet, model penalaran yang mampu beralih antara tindak balas yang cepat, rendah dan pemikiran analitik yang lebih perlahan. Pemaju boleh mengkonfigurasi tingkah laku ini melalui”belanjawan token,”menentukan berapa banyak model yang harus dicerminkan sebelum bertindak balas.”Claude Code adalah kolaborator aktif yang boleh mencari dan membaca kod, mengedit fail, menulis dan menjalankan ujian, komit dan menolak kod ke GitHub, dan menggunakan alat baris arahan,”kata syarikat itu dalam pelepasan yang sama. Ia membawa dalam pengekodan agentik (swe-bench disahkan), penggunaan alat (tau-tench), dan arahan berikut (ifeval), menurut metrik sendiri. pada 20 Mac. Tersedia untuk pengguna Claude Pro dan pasukan yang berpangkalan di A.S., ciri ini mengambil data masa nyata dan melampirkan petikan sumber-sesuatu yang hilang dari banyak sistem AI yang bersaing. Matlamatnya adalah untuk mengimbangi output generatif dengan sumber-sumber yang boleh diverifikasi manusia-dengan lebih baik untuk memperluaskan inisiatif ketelusan syarikat.

Protokol untuk membina agen telus Protokol Konteks Model Syarikat (MCP)-first diperkenalkan pada November 2024-menyediakan cara yang standard untuk sistem AI untuk berinteraksi dengan kedai memori, alat, dan API. Microsoft menambah sokongan untuk MCP di Azure AI Foundry, kernel semantik, dan GitHub minggu ini, membolehkan ejen-ejen berasaskan Claude untuk membina dan melaksanakan proses pelbagai langkah dengan kegigihan. Apabila model melaksanakan tindakan dunia nyata, pemahaman mengapa ia membuat pilihan tertentu bukan hanya akademik-itu keperluan. Pada bulan Februari syarikat itu menaikkan $ 3.5 bilion, meningkatkan penilaiannya kepada $ 61.5 bilion. Pelabur termasuk Lightspeed Venture Partners, General Catalyst, dan MGX. Pelaburan awal $ 4 bilion Amazon terus menyatukan kehadiran Claude mengenai infrastruktur AWS. Walaupun pesaing memberi tumpuan kepada integrasi multimodal atau carian hidup, antropik mencatatkan reputasinya pada penjajaran perusahaan dan ketelusan tingkah laku AI.

Strategi itu juga terbukti dalam dasar. Bulan ini Syarikat mengemukakan cadangan rasmi kepada White House, mendesak ujian keselamatan negara sistem AI, kawalan eksport semikonduktor yang lebih ketat, dan pengembangan infrastruktur tenaga A.S. untuk menyokong peningkatan beban kerja AI. Ia memberi amaran bahawa AI maju boleh melampaui keupayaan manusia dalam bidang utama oleh 2026 yang memberi risiko jika perlindungan tidak digubal dengan cepat. Syarikat itu tidak memberi komen secara terbuka mengenai pembalikan ini, walaupun ia telah mencetuskan kebimbangan mengenai norma industri yang beralih di sekitar peraturan diri.

Mikroskop memenuhi cermin

Seperti yang dilaporkan oleh berwayar Terbenam di seluruh operasi antropik, termasuk pengekodan, penyelidikan, dan sokongan dasar. Tetapi pergantungan dalaman ini juga membawa risiko-terutamanya kerana alat-alat syarikat sendiri mendedahkan keupayaan Claude untuk salah arah dan manipulasi. Alat interpretasi, bertujuan untuk menyokong audit bebas dan kepercayaan awam dengan metodologi penerbitan, penilaian model, dan kerangka keselamatan. Syarikat itu menerangkan matlamatnya dengan jelas dalam postingan blog interpretabilitas yang mengatakan ia percaya arah penyelidikan ini akhirnya dapat membolehkan para penyelidik memahami apa yang dilakukan oleh model dan mengapa, dan campur tangan untuk mengubah tingkah lakunya. Alat Anthropic sedang membina sekarang mungkin penting untuk mengawal model yang berkelakuan dengan autonomi yang semakin meningkat. Tetapi dengan Claude berkembang pesat dan pengawasan industri masih mengambil bentuk, tafsiran tidak lagi menjadi projek sampingan. Ia adalah asas untuk memutuskan sama ada AI maju boleh dipercayai sama sekali.

Categories: IT Info