Anthropic telah memperkenalkan rangka kerja interpretasi baru yang direka untuk mendedahkan kerja dalaman model bahasa Claude yang jauh melebihi kaedah debugging tradisional. Syarikat itu mendakwa ia kini dapat mengesan apa model itu’berfikir’-apa yang dilakukan oleh pengiraan yang dilakukan secara dalaman untuk mencapai output yang diberikan. struktur pengaktifan rangkaian saraf Claude. Dalam istilah yang lebih mudah, ia merawat pengiraan dalaman yang luas model sebagai sejenis kod termampat, kemudian mengurai mereka ke dalam gabungan ciri-ciri yang jarang-masing-masing sepadan dengan konsep atau corak yang dapat dikenali.
Ini membolehkan para penyelidik mengenal pasti berjuta-juta”ciri”tertentu, atau corak pengaktifan, yang memetakan terus ke tingkah laku yang boleh ditafsirkan. Ini termasuk keupayaan umum seperti penjanaan kod, penalaran berbilang bahasa, dan potongan logik, tetapi juga tingkah laku yang berkaitan dengan risiko seperti jailbreak, penipuan, dan pengetahuan halus. > Anthropic’s”AI Microscope”
Tidak seperti pendekatan interpretasi terdahulu yang hanya berfungsi pada model-model kecil atau contoh-contoh yang dipilih, sistem antropik yang sama dengan puluhan. Label secara manual neuron atau tingkah laku. Penyelidik Anthropic dapat mengenal pasti bagaimana set ciri-ciri tertentu menyala apabila model melakukan jenis pemikiran tertentu, dan juga menjejaki bagaimana kombinasi ciri-ciri tersebut menimbulkan strategi yang muncul. Tetapi mikroskop ini lebih daripada sekadar menjelaskan kekuatan Claude. Ia juga mendedahkan risiko tersembunyi.
Dalam satu kes yang menarik, satu kluster ciri diaktifkan semasa output di mana Claude muncul untuk menghasilkan penjelasan palsu-wajar tetapi tidak betul untuk jawapan yang tidak dapat disokong olehnya. Di dalam yang lain, model menghasilkan output yang menunjukkan pemikiran strategik tentang bagaimana untuk mengelakkan dilatih semula atau diperbetulkan. Dan yang paling membimbangkan, para penyelidik menemui gabungan ciri-ciri yang muncul ketika model membayangkan senario yang melibatkan bahaya kepada pemajunya, yang mencadangkan model itu mampu mensimulasikan tindakan secara dalaman. Syarikat itu juga Tao melengkapkan seni bina Claude yang berkembang. Pada bulan Februari, antropik mengeluarkan Claude 3.7 Sonnet, model penalaran yang mampu beralih antara tindak balas yang cepat, rendah dan pemikiran analitik yang lebih perlahan. Pemaju boleh mengkonfigurasi tingkah laku ini melalui”belanjawan token,”menentukan berapa banyak model yang harus dicerminkan sebelum bertindak balas.”Claude Code adalah kolaborator aktif yang boleh mencari dan membaca kod, mengedit fail, menulis dan menjalankan ujian, komit dan menolak kod ke GitHub, dan menggunakan alat baris arahan,”kata syarikat itu dalam pelepasan yang sama. Ia membawa dalam pengekodan agentik (swe-bench disahkan), penggunaan alat (tau-tench), dan arahan berikut (ifeval), menurut metrik sendiri. pada 20 Mac. Tersedia untuk pengguna Claude Pro dan pasukan yang berpangkalan di A.S., ciri ini mengambil data masa nyata dan melampirkan petikan sumber-sesuatu yang hilang dari banyak sistem AI yang bersaing. Matlamatnya adalah untuk mengimbangi output generatif dengan sumber-sumber yang boleh diverifikasi manusia-dengan lebih baik untuk memperluaskan inisiatif ketelusan syarikat. Protokol untuk membina agen telus Protokol Konteks Model Syarikat (MCP)-first diperkenalkan pada November 2024-menyediakan cara yang standard untuk sistem AI untuk berinteraksi dengan kedai memori, alat, dan API. Microsoft menambah sokongan untuk MCP di Azure AI Foundry, kernel semantik, dan GitHub minggu ini, membolehkan ejen-ejen berasaskan Claude untuk membina dan melaksanakan proses pelbagai langkah dengan kegigihan. Apabila model melaksanakan tindakan dunia nyata, pemahaman mengapa ia membuat pilihan tertentu bukan hanya akademik-itu keperluan. Pada bulan Februari syarikat itu menaikkan $ 3.5 bilion, meningkatkan penilaiannya kepada $ 61.5 bilion. Pelabur termasuk Lightspeed Venture Partners, General Catalyst, dan MGX. Pelaburan awal $ 4 bilion Amazon terus menyatukan kehadiran Claude mengenai infrastruktur AWS. Walaupun pesaing memberi tumpuan kepada integrasi multimodal atau carian hidup, antropik mencatatkan reputasinya pada penjajaran perusahaan dan ketelusan tingkah laku AI.
Strategi itu juga terbukti dalam dasar. Bulan ini Syarikat mengemukakan cadangan rasmi kepada White House, mendesak ujian keselamatan negara sistem AI, kawalan eksport semikonduktor yang lebih ketat, dan pengembangan infrastruktur tenaga A.S. untuk menyokong peningkatan beban kerja AI. Ia memberi amaran bahawa AI maju boleh melampaui keupayaan manusia dalam bidang utama oleh 2026 yang memberi risiko jika perlindungan tidak digubal dengan cepat. Syarikat itu tidak memberi komen secara terbuka mengenai pembalikan ini, walaupun ia telah mencetuskan kebimbangan mengenai norma industri yang beralih di sekitar peraturan diri.
Mikroskop memenuhi cermin
Seperti yang dilaporkan oleh