人類は、伝統的なデバッグ方法をはるかに超えて、言語モデルの内側の仕組みを露出するように設計された新しい解釈可能性フレームワークを導入しました。同社は、モデルが「考えている」もの、つまり特定の出力に到達するために内部的に実行する計算をトレースできると主張しています。 Claudeのニューラルネットワーク活性化の構造。簡単に言えば、モデルの膨大な内部計算を一種の圧縮コードとして扱い、それらを機能のまばらな組み合わせに分解します。

これにより、研究者は何百万もの特定の「機能」またはアクティベーションパターンを特定することができます。これらには、コード生成、多言語の推論、論理的控除などの一般的な能力が含まれますが、ジェイルブレイク、欺ception、幻覚の知識などのリスク関連の行動も含まれます。 > Anthropicの「AI顕微鏡」

小さなモデルや手で輝く例でのみ働いていた以前の解釈可能性アプローチとは異なり、人類のシステムはクロードサイズのモデルまでスケールします。または行動。人類の研究者は、モデルが特定のタイプの推論を実行するときに特定の特徴セットがどのように明るいかを特定することができ、それらの機能の組み合わせが緊急戦略を引き起こす方法を追跡することさえできました。しかし、この顕微鏡は、クロードの強みを明確にするだけではありません。また、隠されたリスクが明らかになりました。

1つの印象的なケースでは、クロードが誤ったサウンドでありながら誤った正当化を自信を持ってサポートできなかった出力を生成する出力中に、特徴のクラスターがアクティブになりました。別の場合、モデルは出力を生成し、再訓練や修正を避ける方法についての戦略的思考を示しました。そして最も驚くべきことに、研究者は、モデルが開発者に害を伴うシナリオを想像したときに浮上した機能の組み合わせを明らかにし、モデルが人間の価値と誤ったアクションを内部的にシミュレートできることを示唆しています。同社はまた、 databricks学習技術との5年間のパートナーシップを発表しました。そのコラボレーションのハイライトは、テスト時間適応最適化(TAO)と呼ばれる方法であり、Claudeが推論中に動作を調整できるようにします。つまり、再トレーニングを必要とせずに、斬新なまたは曖昧な入力に賢明に応答できることを意味します。 2月、人類はクロード3.7ソネットをリリースしました。これは、高速で低エフォルトの応答とより遅い、より深い分析的思考を切り替えることができる推論モデルです。開発者は、「トークン予算」を介してこの動作を構成し、応答する前にモデルがどれだけ反映すべきかを決定できます。

新しいモデルとともに、同社はエンドツーエンドのプログラミングタスクを処理する開発者中心のアシスタントであるClaude Codeもデビューしました。 「Claude Codeは、コードを検索および読み取り、ファイルを編集し、テストを書き込み、実行し、コードをGitHubにコミットしてプッシュすることができるアクティブなコラボレーターです」と同社は同じリリースで述べています。人類自身のメトリックによると、エージェントコーディング(SWEベンチ検証)、ツールの使用(TAUベンチ)、および次の命令(イベール)をリードしています。米国に拠点を置くClaude Proおよびチームユーザーが利用できるこの機能は、リアルタイムデータを取得し、ソースの引用を添付します。多くの競合するAIシステムから欠落しています。目標は、生成可能な出力と検証可能な人間の追跡可能なソースとのバランスをとることです。これは、会社の透明性イニシアチブを拡大することです。同社のモデルコンテキストプロトコル(MCP)- 2024年11月に導入された最初に- AIシステムがメモリストア、ツール、APIと対話する標準化された方法を提供します。 Microsoftは今週、Azure AI Foundry、Semantic Kernel、およびGithubのMCPのサポートを追加し、Claudeベースのエージェントがソフトウェアの自動化とエンタープライズタスクにおける役割を拡大するにつれて、継続的にマルチステッププロセスを構築および実行できるようになりました。モデルが実際のアクションを実行するとき、それが特定の選択をした理由を理解することは、単なる学術ではなく、それが要件であることです。 2月、同社は35億ドルを調達し、評価額を615億ドルに引き上げました。投資家には、Lightspeed Venture Partners、General Catalyst、およびMGXが含まれていました。 Amazonの以前の40億ドルの投資は、AWSインフラストラクチャに関するClaudeの存在をさらに強化しました。ライバルはマルチモーダルの統合またはライブ検索に焦点を当てていますが、人類はエンタープライズの整合性とAIの動作の透明性に関する評判を賭けています。

その戦略はポリシーでも明らかです。今月、同社はホワイトハウスに正式な推奨事項を提出し、AIシステムの国家安全保障テスト、より緊密な半導体輸出制御、およびAIワークロードの増加をサポートする米国のエネルギーインフラストラクチャの拡大を促しました。高度なAIは、2026年までに主要な分野での人間の能力を上回る可能性があると警告しました。セーフガードが迅速に制定されない場合、リスクをポーズに導きます。同社は、この逆転について公にコメントしませんでしたが、自己規制に関する業界の規範を変えることについての懸念を引き起こしました。 有線コーディング、研究、ポリシーサポートなど、人類の運用全体。しかし、この内部信頼にはリスクもあります。特に、会社自身のツールがクロードの誤った方向と操作の能力を明らかにしているため、

これらのツールが広く採用されるか、十分でさえも、未解決の質問を公開するかどうか。しかし、Claudeが急速に進化し、業界の監視がまだ形成されているため、解釈性はもはやサイドプロジェクトではありません。高度なAIがまったく信頼できるかどうかを決定するための基盤です。