Antropik telah meluncurkan Claude Sonnet 4.5, model AI terbarunya, yang diklaim perusahaan adalah model terbaik dan teraman di dunia untuk pengkodean dan membangun agen perangkat lunak yang kompleks. Claude Sonnet 4.5 menunjukkan kinerja canggih pada tolok ukur industri utama.
Model ini mengungguli pendahulunya dan saingannya seperti Openai’s GPT-5 dan Google Gemini. Peluncuran ini mencakup peningkatan besar ke alat pengembang Anthropic, seperti ekstensi kode VS baru dan agen SDK, yang ditujukan untuk memungkinkan tugas otonom yang lebih canggih dan berdurasi panjang.
Perusahaan ini menekankan peningkatan keamanan model, melepaskannya di bawah perlindungan ASL-3 yang ketat untuk mengurangi risiko dan mengurangi perilaku berbahaya . Langkah ini memposisikannya sebagai mitra AI yang lebih andal dan selaras untuk pengembang dalam ras teknologi yang meningkat dengan cepat.
tolok ukur baru untuk pengkodean AI dan ketahanan agen
Klaim antropik supremasi didukung oleh serangkaian metrik yang mengesankan yang memposisikan soneta 4.5 di bagian atas beberapa papan peringkat industri utama.
pengumuman resmi Menyoroti kinerja canggihnya untuk menuntut evaluasi Model ini juga menetapkan rekor baru di Osworld, sebuah suite yang menguji kapasitas AI untuk melakukan tugas-tugas komputer dunia nyata yang praktis.
Ini mencapai skor 61,4 persen, lompatan signifikan dari 42,2 persen yang dipegang oleh pendahulunya, soneta 4, hanya empat bulan sebelumnya. Kinerja ini menempatkannya di depan para pesaing seperti Google Gemini 2.5 Pro dan Openai GPT-5 di berbagai bidang, menurut tolok ukur yang dibagikan oleh perusahaan.
Lompatan kinerja ini bukan hanya tambahan; Ini terutama melampaui model andalan Anthropic yang lebih mahal, Opus 4.1. Dengan memberikan kemampuan yang unggul pada titik harga yang sama dengan Sonnet 4 yang lebih tua, Antropik membuat kasus yang kuat untuk efisiensi dan nilai, menawarkan pengembang akses ke kinerja tingkat atas tanpa premi biaya.
Di luar skor mentah, pembeda utama adalah daya tahan yang sangat baik untuk pekerjaan yang sangat baik. Laporan Antropik bahwa Sonnet 4.5 dapat beroperasi pada proyek multi-langkah yang kompleks selama lebih dari 30 jam terus menerus.
Ini adalah lompatan monumental dari kemampuan sekitar tujuh jam dari Claude 4 Opus, yang sudah dianggap sebagai terobosan ketika diluncurkan pada Mei.
Ini bukan hanya batas teori. Selama uji coba awal, peneliti antropik AI David Hershey mengatakan kepada TechCrunch bahwa dia menyaksikan model itu tidak hanya membangun aplikasi tetapi juga stand up layanan basis data, membeli nama domain, dan melakukan audit keamanan SOC 2 pada pekerjaannya sendiri.
Sonnet 4.5 Tingkat Code-Cod. juga menunjukkan luasnya lebih besar. Umpan balik awal dari para ahli dalam bidang keuangan, hukum, kedokteran, dan STEM menemukan bahwa Sonnet 4.5 memiliki pengetahuan dan penalaran khusus domain yang lebih baik daripada model sebelumnya.
Ini lebih lanjut didukung oleh kinerja yang kuat pada berbagai evaluasi yang mengukur kemampuan matematika dan penalaran. Seperti yang dicatat Hershey, sulit untuk menangkap kinerja Claude Sonnet 4.5 dengan tolok ukur saja, menyoroti kemampuan model untuk menangani dunia nyata, tantangan penjahat panjang yang melampaui pembuatan kode sederhana.
memberdayakan pengembang dengan sedikit peningkatan dengan toolkit
dari pengembang yang lebih banyak, A Toolkit yang ditingkatkan
dari power. Ekosistem pengembang Anthropic. Perusahaan ini memiliki meluncurkan rangkaian alat-alat baru yang kuat, dan fitur-fitur yang dirancang untuk membuat poin-poin yang lebih kuat. Agen pengkodean populer perusahaan. Sekarang termasuk”pos pemeriksaan,”fitur yang sangat diminta yang secara otomatis menyimpan status kode sebelum setiap perubahan.
Ini memungkinkan pengembang untuk secara instan mundur ke versi sebelumnya, mendorong pekerjaan yang lebih ambisius dan eksplorasi tanpa takut akan kesalahan yang tidak dapat dipulihkan.
Pengalaman pengembang lebih lanjut ditingkatkan dengan a ekstensi kode asli vs , saat ini dalam beta. Ini membawa kemampuan Kode Claude langsung ke IDE, menawarkan antarmuka grafis yang lebih kaya dengan bilah samping khusus dan perbedaan inline real-time.
Pindah ini melayani pengembang yang lebih suka bekerja di dalam lingkungan grafis utama mereka dengan satu-satunya yang berkenalan-tidak ada di atas. href=”https://www.anthropic.com/news/context-management”target=”_ blank”> Alat manajemen konteks canggih
.
“Pengeditan Konteks”secara otomatis membersihkan PERTANYAAN DAN Hasil dari Percakapan yang Berbasis Serba. Suatu”alat memori”yang berbasis di seluruh. Pendekatan dua cabang memiliki dampak yang terukur. Tes internal menunjukkan bahwa menggabungkan alat-alat ini meningkatkan kinerja agen pada tugas-tugas kompleks sebesar 39% dan mengurangi konsumsi token sebesar 84% dalam evaluasi pencarian web 100-turn, memungkinkan agen untuk menyelesaikan alur kerja yang akan gagal.
Mungkin yang paling signifikan untuk pengguna tingkat lanjut, antropik adalah merilis agen Claude SDK . Ini bukan hanya perpustakaan; Ini memberi pengembang akses ke infrastruktur inti yang sama yang memberi kekuatan pada kode Claude. Ini memungkinkan pembuatan agen adat untuk alur kerja khusus, dari kepatuhan keuangan hingga keamanan siber.
Strategi ini secara langsung mendukung visi jangka panjang perusahaan. Seperti yang sebelumnya dinyatakan oleh CEO Dario Amodei, “Kami menuju ke dunia di mana pengembang manusia dapat mengelola armada agen, tetapi saya pikir keterlibatan manusia yang berkelanjutan akan menjadi penting untuk kontrol kualitas…” SDK baru adalah langkah mendasar untuk mewujudkan visi itu untuk semua pengembang.
Kuat komitmen yang lebih kuat terhadap keselamatan dan pelarangan. Sonnet 4.5 sebagai”model perbatasan yang paling selaras”. Kartu resmi perusahaan merinci pelatihan keselamatan ekstensif yang telah menyebabkan pengurangan substansial dalam perilaku yang tidak diinginkan seperti perekam, penipuan, dan pencarian kekuasaan.
Model ini dirilis di bawah kerangka kerja AI Safety Level 3 (ASL-3) yang ketat. Ini termasuk menggunakan filter yang dirancang untuk mendeteksi dan mencegah generasi output yang berpotensi berbahaya, terutama yang terkait dengan senjata kimia, biologis, radiologis, dan nuklir (CBRN).
Fokus pada keselamatan ini merupakan respons langsung terhadap keprihatinan di seluruh industri dan bertujuan untuk membangun kepercayaan dengan pelanggan perusahaan. Perusahaan mengklaim Sonnet 4.5 secara signifikan kurang rentan terhadap serangan injeksi dan kerentanan lain yang telah mengganggu generasi sebelumnya dari model AI.
menavigasi lanskap AI yang hiper-kompetitif
Peluncuran Sonnet 4.5 tidak terjadi pada vakum. Ini adalah langkah strategis di pasar yang hiper-kompetitif. Hanya beberapa minggu yang lalu, OpenAI meluncurkan GPT-5-Codex, model khusus untuk pengkodean agen. Pimpinan produknya, Alexander Embiricos, menyoroti kecerdasan adaptifnya, yang menyatakan, “GPT-5-Codex dapat memutuskan lima menit menjadi masalah yang perlu dihabiskan satu jam lagi.”
Sementara itu, Google Gemini baru-baru ini menunjukkan pemecahan masalah manusia super di Final Dunia ICPC. Meta juga telah memasuki keributan dengan model World Kodenya,”debugger saraf”yang berfokus pada pemahaman logika kode daripada hanya menulisnya.
Strategi antropik tampaknya ada dua: bersaing dengan kinerja mentah sambil membedakan pada pengalaman keselamatan dan pengembang. Umpan balik awal dari pasangan seperti kursor dan windsurf adalah positif.
CEO Kursor, Michael Truell, dinyatakan , kami melihat,”kami melihat,”kami melihat,”kami melihat,”kami melihat,”Kami melihat,”kami melihat,”kami melihat,”kami melihat,”kami melihat,”kami melihat,”kami melihat,”kami melihat”Tugas Horizon yang Lebih Lama,”Sementara CEO Windsurf Jeff Wang menyebutnya”generasi baru model pengkodean.”
Untuk pengembang, harga tetap tidak berubah dari Claude Sonnet 4, dengan cara $ 3 per juta token input dan $ 15 per juta token output, menjadikan kemampuan baru sebagai peningkatan langsung. Untuk menunjukkan kekuatannya, antropik juga menawarkan pratinjau penelitian sementara yang disebut ‘bayangkan dengan claude’ untuk pelanggan maks .
Ini memungkinkan pengembang untuk secara instan mundur ke versi sebelumnya, mendorong pekerjaan yang lebih ambisius dan eksplorasi tanpa takut akan kesalahan yang tidak dapat dipulihkan.
Pengalaman pengembang lebih lanjut ditingkatkan dengan a ekstensi kode asli vs , saat ini dalam beta. Ini membawa kemampuan Kode Claude langsung ke IDE, menawarkan antarmuka grafis yang lebih kaya dengan bilah samping khusus dan perbedaan inline real-time.
Pindah ini melayani pengembang yang lebih suka bekerja di dalam lingkungan grafis utama mereka dengan satu-satunya yang berkenalan-tidak ada di atas. href=”https://www.anthropic.com/news/context-management”target=”_ blank”> Alat manajemen konteks canggih
.“Pengeditan Konteks”secara otomatis membersihkan PERTANYAAN DAN Hasil dari Percakapan yang Berbasis Serba. Suatu”alat memori”yang berbasis di seluruh. Pendekatan dua cabang memiliki dampak yang terukur. Tes internal menunjukkan bahwa menggabungkan alat-alat ini meningkatkan kinerja agen pada tugas-tugas kompleks sebesar 39% dan mengurangi konsumsi token sebesar 84% dalam evaluasi pencarian web 100-turn, memungkinkan agen untuk menyelesaikan alur kerja yang akan gagal.
Mungkin yang paling signifikan untuk pengguna tingkat lanjut, antropik adalah
Strategi ini secara langsung mendukung visi jangka panjang perusahaan. Seperti yang sebelumnya dinyatakan oleh CEO Dario Amodei, “Kami menuju ke dunia di mana pengembang manusia dapat mengelola armada agen, tetapi saya pikir keterlibatan manusia yang berkelanjutan akan menjadi penting untuk kontrol kualitas…” SDK baru adalah langkah mendasar untuk mewujudkan visi itu untuk semua pengembang.
Kuat komitmen yang lebih kuat terhadap keselamatan dan pelarangan. Sonnet 4.5 sebagai”model perbatasan yang paling selaras”. Kartu resmi perusahaan merinci pelatihan keselamatan ekstensif yang telah menyebabkan pengurangan substansial dalam perilaku yang tidak diinginkan seperti perekam, penipuan, dan pencarian kekuasaan.
Model ini dirilis di bawah kerangka kerja AI Safety Level 3 (ASL-3) yang ketat. Ini termasuk menggunakan filter yang dirancang untuk mendeteksi dan mencegah generasi output yang berpotensi berbahaya, terutama yang terkait dengan senjata kimia, biologis, radiologis, dan nuklir (CBRN).
Fokus pada keselamatan ini merupakan respons langsung terhadap keprihatinan di seluruh industri dan bertujuan untuk membangun kepercayaan dengan pelanggan perusahaan. Perusahaan mengklaim Sonnet 4.5 secara signifikan kurang rentan terhadap serangan injeksi dan kerentanan lain yang telah mengganggu generasi sebelumnya dari model AI.
menavigasi lanskap AI yang hiper-kompetitif
Peluncuran Sonnet 4.5 tidak terjadi pada vakum. Ini adalah langkah strategis di pasar yang hiper-kompetitif. Hanya beberapa minggu yang lalu, OpenAI meluncurkan GPT-5-Codex, model khusus untuk pengkodean agen. Pimpinan produknya, Alexander Embiricos, menyoroti kecerdasan adaptifnya, yang menyatakan, “GPT-5-Codex dapat memutuskan lima menit menjadi masalah yang perlu dihabiskan satu jam lagi.”
Sementara itu, Google Gemini baru-baru ini menunjukkan pemecahan masalah manusia super di Final Dunia ICPC. Meta juga telah memasuki keributan dengan model World Kodenya,”debugger saraf”yang berfokus pada pemahaman logika kode daripada hanya menulisnya.
Strategi antropik tampaknya ada dua: bersaing dengan kinerja mentah sambil membedakan pada pengalaman keselamatan dan pengembang. Umpan balik awal dari pasangan seperti kursor dan windsurf adalah positif.
CEO Kursor, Michael Truell, dinyatakan , kami melihat,”kami melihat,”kami melihat,”kami melihat,”kami melihat,”Kami melihat,”kami melihat,”kami melihat,”kami melihat,”kami melihat,”kami melihat,”kami melihat,”kami melihat”Tugas Horizon yang Lebih Lama,”Sementara CEO Windsurf Jeff Wang menyebutnya”generasi baru model pengkodean.”
Untuk pengembang, harga tetap tidak berubah dari Claude Sonnet 4, dengan cara $ 3 per juta token input dan $ 15 per juta token output, menjadikan kemampuan baru sebagai peningkatan langsung. Untuk menunjukkan kekuatannya, antropik juga menawarkan pratinjau penelitian sementara yang disebut ‘bayangkan dengan claude’ untuk pelanggan maks .
Model ini dirilis di bawah kerangka kerja AI Safety Level 3 (ASL-3) yang ketat. Ini termasuk menggunakan filter yang dirancang untuk mendeteksi dan mencegah generasi output yang berpotensi berbahaya, terutama yang terkait dengan senjata kimia, biologis, radiologis, dan nuklir (CBRN).
Fokus pada keselamatan ini merupakan respons langsung terhadap keprihatinan di seluruh industri dan bertujuan untuk membangun kepercayaan dengan pelanggan perusahaan. Perusahaan mengklaim Sonnet 4.5 secara signifikan kurang rentan terhadap serangan injeksi dan kerentanan lain yang telah mengganggu generasi sebelumnya dari model AI.
menavigasi lanskap AI yang hiper-kompetitif
Peluncuran Sonnet 4.5 tidak terjadi pada vakum. Ini adalah langkah strategis di pasar yang hiper-kompetitif. Hanya beberapa minggu yang lalu, OpenAI meluncurkan GPT-5-Codex, model khusus untuk pengkodean agen. Pimpinan produknya, Alexander Embiricos, menyoroti kecerdasan adaptifnya, yang menyatakan, “GPT-5-Codex dapat memutuskan lima menit menjadi masalah yang perlu dihabiskan satu jam lagi.”
Sementara itu, Google Gemini baru-baru ini menunjukkan pemecahan masalah manusia super di Final Dunia ICPC. Meta juga telah memasuki keributan dengan model World Kodenya,”debugger saraf”yang berfokus pada pemahaman logika kode daripada hanya menulisnya.
Strategi antropik tampaknya ada dua: bersaing dengan kinerja mentah sambil membedakan pada pengalaman keselamatan dan pengembang. Umpan balik awal dari pasangan seperti kursor dan windsurf adalah positif.
CEO Kursor, Michael Truell, dinyatakan , kami melihat,”kami melihat,”kami melihat,”kami melihat,”kami melihat,”Kami melihat,”kami melihat,”kami melihat,”kami melihat,”kami melihat,”kami melihat,”kami melihat,”kami melihat”Tugas Horizon yang Lebih Lama,”Sementara CEO Windsurf Jeff Wang menyebutnya”generasi baru model pengkodean.”
Untuk pengembang, harga tetap tidak berubah dari Claude Sonnet 4, dengan cara $ 3 per juta token input dan $ 15 per juta token output, menjadikan kemampuan baru sebagai peningkatan langsung. Untuk menunjukkan kekuatannya, antropik juga menawarkan pratinjau penelitian sementara yang disebut ‘bayangkan dengan claude’ untuk pelanggan maks .