Setelah berminggu-minggu keluhan pengguna dan spekulasi tentang penurunan kinerja AI-nya, antropik telah memecah keheningannya.
Perusahaan menerbitkan postmortem teknis yang terperinci yang mengungkapkan bahwa tiga bug infrastruktur yang berbeda dan tumpang tindih adalah penyebab masalah kualitas apa pun dengan model claude. “Kami tidak pernah mengurangi kualitas model karena permintaan, waktu dalam sehari, atau beban server. Masalah yang dilaporkan pengguna kami adalah karena bug infrastruktur saja.”
kehilangan kepercayaan setelah mengalami minggu-minggu yang berkurang dari pengalaman yang berkurang dan berkurang dan berkurangnya minggu dari pengalaman yang berkurang dari pengalaman berminggu-minggu yang mengalami pengalaman berkurang dan berkurang dari mengalami minggu-minggu yang berkurang dari pengalaman mengalami minggu yang berkurang dan berkurang dari pengalaman mengalami minggu-minggu yang berkurang dari pengalaman mengalami minggu-minggu yang berkurang dari pengalaman yang mengalami pengalaman berkurang dan berkurang dari pengalaman yang berkurang dari pengalaman berkurang dari minggu yang mengalami pengalaman berkecimpung Pengumuman ini memberikan pandangan yang langka dan transparan ke dalam infrastruktur kompleks yang diperlukan untuk melayani model bahasa besar pada skala.
Musim panas frustrasi memuncak dalam penjelasan
Masalahnya dimulai secara halus tetapi meningkat secara signifikan. Bug pertama,”Kesalahan Routing Jendela Konteks,”diperkenalkan pada 5 Agustus, awalnya mempengaruhi hanya 0,8% dari permintaan Sonnet 4, menurut
Masalah kecil ini secara dramatis diamplifikasi oleh perubahan load-balancing pada 29 Agustus. Pada puncaknya, kesalahan tersebut berdampak pada 16% dari permintaan soneta 4. Masalahnya diperparah oleh “perutean lengket,” yang mengunci pengguna yang terkunci dalam sesi dengan server yang salah, membuat kinerja yang buruk terasa persisten. Ini mengikuti kontroversi terpisah pada bulan Juli, ketika antropik menghadapi balik pengguna yang membatasi batasan yang membatasi kombinasi pada kombinasi yang tidak ada pada kombinasi yang tidak ada pada kombinasi yang tidak ada pada kombinasi yang tidak ada pada kombinasi yang tidak dapat diatasi. keandalan platform. Investigasi antropik mengungkap badai kegagalan teknis yang sempurna. Pada 25 Agustus, dua bug lagi dikerahkan. Satu adalah masalah”keluaran korupsi”pada server TPU perusahaan, yang menyebabkan model tersebut sesekali menyuntikkan karakter acak, di luar konteks, seperti skrip Thailand, ke dalam respons bahasa Inggris. href=”https://cloud.google.com/tpu/docs/intro-to-tpu”target=”_ blank”> xla: kompiler tpu di bawah kap: kaskade tiga bug yang tumpang tindih
Ini menyebabkan operasi”perkiraan top-k”-optimasi kinerja-kadang-kadang mengembalikan hasil yang salah, secara langsung memengaruhi kualitas engine di seluruh model yang berbeda. akar penyebab.
Pengalaman bagi banyak orang hanyalah bahwa alat yang pernah berubah permainan menjadi tidak dapat diandalkan.
Mengapa deteksi sulit dan bagaimana antropik memperbaikinya
Antropik mengakui penangkapan standarnya, yang bergantung pada benchmark dan evaluasi keselamatan yang gagal. Dalam postmortemnya, perusahaan menjelaskan bahwa”masalah-masalah ini mengekspos kesenjangan kritis.”Evaluasi tidak menangkap kegagalan spesifik yang dilaporkan pengguna.
Tantangan utama yang berasal dari ketahanan model sendiri. Claude sering pulih dengan baik dari kesalahan yang terisolasi, yang secara efektif menutupi penyimpangan sistemik yang disebabkan oleh bug yang mendasarinya.
Ini menciptakan sinyal yang membingungkan, di mana AI tampaknya melakukan privasi secara normal, investigasi agregasi bahkan oleh Anthric. Langkah-langkah keamanan ini membatasi akses insinyur ke interaksi pengguna, mencegah mereka dari dengan mudah memeriksa petunjuk spesifik dan percakapan yang diperlukan untuk mereproduksi bug.
Sementara ini melindungi privasi pengguna, itu menciptakan rintangan diagnostik yang signifikan.
Sifat yang tumpang tindih dari tiga lines yang tidak ada yang tidak menghasilkan gejala yang berbeda pada platform yang berbeda, yang membuat apa pun yang berbeda, yang membuat Cixing.
Ini membuat masalah ini terlihat seperti degradasi acak, tidak konsisten daripada serangkaian konkret, kegagalan terkait.
Sebagai tanggapan, perusahaan telah meluncurkan serangkaian perbaikan yang ditargetkan dan merombak strategi pencegahannya. Insinyur telah mengoreksi logika perutean yang salah, mengembalikan kode yang menyebabkan korupsi output, dan beralih dari metode pengambilan sampel”perkiraan”buggy ke operasi”Top-K”yang lebih kuat.
Pada poin terakhir ini, evaluasi antropik,”Model Pepraif, PRANT PERUSAHAAN, PRANDSIA-PINGKAT PETROPI, DAMPAI PEREKALAN,”PIND MIN DIPAN PETROPIC, SO MINEM POINT.”Dirancang untuk membedakan lebih baik antara model kerja dan rusak. Yang terpenting, pemeriksaan kualitas ini sekarang akan berjalan terus menerus pada sistem produksi langsungnya untuk menangkap kesalahan secara real-time.
Perusahaan juga mengembangkan perkakas baru untuk membantu men-debug masalah yang dilaporkan pengguna lebih cepat tanpa mengkompromikan standar privasi yang ketat. Perlombaan senjata AI yang hiper-kompetitif. Untuk antropik, taruhannya sangat tinggi karena mendorong melampaui model dasar ke dalam platform sebagai lapisan layanan (paaS), bersaing lebih langsung dengan penyedia layanan cloud dan perangkat lunak.
Sebagai analis Holger Mueller dari Constellation Research yang diamati,”Penafikian LLM yang ada di PaaS. Terbukti dalam rilis seperti model agen Claude 4 dan alat yang berfokus pada pengembang seperti sub-agen, menjadikan keandalan platform fitur yang tidak dapat dinegosiasikan.
Visi, sebagaimana diartikulasikan oleh CEO Dario Amodei, melibatkan masa depan di mana “kita menuju ke dunia di mana pengembang manusia dapat mengelola armada agen, tetapi saya pikir lanjutan manusia yang akan dikelola manusia, tetapi saya berpikir untuk menjadi pengembang manusia yang dapat mengelola armen agen, tetapi saya berpikir untuk mengelol Filsafat armada AI yang dikelola manusia menjadi kenyataan, tetapi sepenuhnya bergantung pada stabilitas alat yang mendasarinya.
Reaksi masyarakat terhadap postmortem telah dicampur. Sementara banyak pengembang di forum seperti reddit memuji perusahaan untuk transparansi yang tidak biasa . Membangun kembali kepercayaan dari basis pengguna profesional akan membutuhkan stabilitas yang berkelanjutan.
Pada akhirnya, penjelasan terperinci Anthropic adalah langkah penting. Ini mengakui pengalaman pengguna yang membuat frustrasi dan memberikan narasi teknis yang kredibel untuk kegagalan tersebut. Perusahaan bertaruh bahwa tingkat transparansi ini, dikombinasikan dengan perbaikan yang direncanakan, akan cukup untuk mengembalikan kepercayaan pada platform Claude.