Anthropic telah merilis Claude Opus 4.5 hari ini, mengklaim skor pengkodean tertinggi di industri dan memperkenalkan perubahan arsitektur yang signifikan untuk menurunkan biaya.
Dengan memangkas harga 66% menjadi $5 per juta token masukan dan menerapkan “Pencarian Alat”untuk mengurangi overhead konteks sebesar 85%, perusahaan secara langsung menyerang penghalang ekonomi utama bagi agen AI otonom.
Model ini mencapai skor 80,9% di SWE-bench Terverifikasi, dengan selisih tipis mengungguli rilis terbaru dari Google dan OpenAI untuk mendapatkan kembali keunggulan performa untuk tugas-tugas rekayasa perangkat lunak yang kompleks.
Perang Tolok Ukur: Merebut Kembali Mahkota
Opus 4.5 hadir dengan skor 80,9% di SWE-bench Verified, standar terbaik saat ini untuk mengevaluasi kemampuan rekayasa perangkat lunak otonom. Skor ini melampaui pesaingnya, mengalahkan skor peluncuran Google Gemini 3 Pro sebesar 76,2% dan GPT-5.1-Codex-Max sebesar 77,9%.
Evaluasi internal menunjukkan bahwa model tersebut kini mendapat skor lebih tinggi daripada kandidat manusia pada pengujian teknis yang dibawa pulang oleh Anthropic. “Opus 4.5 adalah sebuah langkah maju dalam hal yang dapat dilakukan oleh sistem AI, dan merupakan pratinjau dari perubahan yang lebih besar dalam cara menyelesaikan pekerjaan,” kata perusahaan tersebut dalam pengumumannya.
Untuk menyeimbangkan biaya versus kemampuan, parameter “usaha” baru memungkinkan pengembang untuk secara dinamis menyesuaikan kedalaman penalaran model selama panggilan API. Pada upaya “sedang”, Opus 4.5 menyamai performa puncak model Sonnet 4.5 sebelumnya, namun mengonsumsi token keluaran 76% lebih sedikit.
Mendorong batas tertinggi pemecahan masalah otomatis, pengaturan upaya “tinggi” melampaui kemampuan Sonnet 4.5 sebesar 4,3 poin persentase. November telah terbukti menjadi bulan yang aktif dalam AI, dengan ketiga laboratorium besar menerapkan model pengkodean andalan mereka antara tanggal 18 dan 24.
Pergeseran Ekonomi: Penetapan Harga dan Arsitektur
Mengatasi kekhawatiran perusahaan tentang kelayakan model “penalaran” yang mahal, Anthropic secara agresif mengubah harga model tersebut menjadi $5 per juta token masukan dan $25 per juta token keluaran.
Dibandingkan dibandingkan generasi Opus sebelumnya ($15/$75), tarif baru ini menawarkan diskon 66%, sebagaimana dijelaskan secara rinci dalam Memperkenalkan Claude Opus 4.5.
Di balik terpalnya, arsitekturnya mengatasi masalah “Context Bloat”. Secara tradisional, memuat lebih dari 50 definisi alat memerlukan sekitar 55.000 token sebelum satu kueri pengguna diproses.
Menurut dokumentasi penggunaan alat tingkat lanjut, sistem baru ini secara mendasar mengubah dinamika ini:
“Daripada memuat semua definisi alat terlebih dahulu, Alat Pencarian Alat menemukan alat sesuai permintaan. Claude hanya melihat alat yang benar-benar diperlukan untuk tugas saat ini.”
“Ini menunjukkan pengurangan penggunaan token sebesar 85% sambil mempertahankan akses ke pustaka alat lengkap Anda. Pengujian internal menunjukkan peningkatan akurasi yang signifikan pada evaluasi MCP saat bekerja dengan pustaka alat yang besar.”
Melengkapi ini adalah “Pemanggilan Alat Terprogram”(PTC), yang memungkinkan model untuk menulis kode orkestrasi daripada mengandalkan pengambilan giliran berbasis obrolan.
Dokumentasi teknis lebih lanjut menjelaskan mekanisme PTC:
“Daripada Claude meminta alat satu per satu dengan setiap hasil dikembalikan ke konteksnya, Claude menulis kode yang memanggil beberapa alat, memproses keluarannya, dan mengontrol informasi apa yang sebenarnya masuk ke jendela konteksnya.”
“Claude unggul dalam menulis kode dan dengan membiarkannya mengekspresikan logika orkestrasi dengan Python daripada melalui pemanggilan alat bahasa alami, Anda mendapatkan aliran kontrol yang lebih andal dan tepat.”
PTC menghilangkan kebutuhan akan alat tersebut langkah inferensi bolak-balik untuk setiap panggilan alat individual, sehingga mengurangi latensi secara signifikan. Pemrosesan kumpulan data yang luas, seperti data pengeluaran mentah sebesar 200 KB, menjadi layak dilakukan karena model hanya mengembalikan hasil akhir 1 KB ke jendela konteks.
“Untuk membangun agen yang efektif, mereka perlu bekerja dengan pustaka alat yang tidak terbatas tanpa memasukkan setiap definisi ke dalam konteks terlebih dahulu,”kata Tim Teknik Antropik.
Ekspansi Ekosistem: Chrome, Excel, dan Keamanan
Di luar model inti, “Claude Code”telah beralih dari beta ke ketersediaan umum, menawarkan aplikasi desktop lengkap untuk alur kerja pengembang. Integrasi baru memungkinkan model untuk mengontrol browser Chrome secara langsung, tidak hanya menghasilkan teks hingga penelitian aktif dan pelaksanaan tugas.
[konten tersemat]
Menargetkan pemodelan keuangan, integrasi Excel khusus memungkinkan model memanipulasi spreadsheet dengan ribuan baris.
Dianne Na Penn, Head of Product Management for Research di Anthropic, menekankan pentingnya kemampuan ini: “Mengetahui detail yang tepat untuk diingat sangatlah penting selain memiliki jendela konteks yang lebih panjang.”
[konten tersemat]
Keselamatan tetap menjadi pilar utama rilis ini. Kartu sistem Claude Opus 4.5 menyoroti investasi yang signifikan dalam mitigasi risiko Kimia, Biologi, Radiologi, dan Nuklir (CBRN).
Kartu Sistem secara eksplisit menguraikan status penyelarasan model:
“Opus 4.5 adalah model yang paling selaras kami telah merilis hingga saat ini dan, kami menduga, ini merupakan model frontier yang paling selaras dengan developer mana pun.”
“Opus 4.5 lebih sulit diakali dengan injeksi cepat dibandingkan model frontier lainnya di industri.”
Realitas Pasar: Era Agen
Mengkontekstualisasikan peluncuran ini, “November AI Rush”telah membuat Google, OpenAI, dan Anthropic semuanya berporos secara bersamaan menuju agen otonom. Narasi telah beralih dari “chatbots”menjadi “agen”yang mampu menjalankan tugas selama 24+ jam.
Meskipun Anthropic memimpin dalam tolok ukur mentah (80,9%), marginnya sangat tipis, dengan kurang dari 5 poin persentase yang memisahkan tiga pesaing teratas. Ada trade-off utama dalam arsitektur baru ini: “Penelusuran Alat”memperkenalkan langkah penelusuran yang dapat menambah latensi dibandingkan jika semua alat sudah dimuat sebelumnya dalam konteks.
Tidak seperti optimasi Windows-native OpenAI dengan Codex-Max, Anthropic bertaruh pada pendekatan desktop yang tidak bergantung pada platform. Manajemen memori telah muncul sebagai medan pertempuran baru, dengan OpenAI memanfaatkan “pemadatan”dan Anthropic menerapkan “Tool Search”untuk mengatasi hambatan jendela konteks yang sama.