terhuyung-huyung dari kemitraan bencana dengan meta yang memicu eksodus klien dan PHK massal, perusahaan pelabelan data skala AI membuat permainan yang berani untuk merebut kembali otoritasnya di industri AI.
Perusahaan hari ini akan meluncurkan”Seal Showdown”. Papan publik yang dirancang untuk Dethrone yang berpengaruh tetapi mengkritik rival LMA-nya seperti LMARA-nya.”Benchmark Wars”dengan menggunakan basis pengguna global yang beragam dan perlindungan terhadap manipulasi . Pivot strategis ini bertujuan untuk mengatasi kekhawatiran yang terus meningkat bahwa peringkat AI saat ini mudah bergantian dan gagal untuk mencerminkan kinerja dunia nyata, menawarkan skala jalan untuk membangun kembali reputasinya pada fondasi kepercayaan.
dari krisis perusahaan hingga tawaran untuk kredibilitas
Peluncuran ini merupakan respons langsung terhadap bencana beberapa bulan untuk perusahaan, krisis yang dinyalakan oleh satu keputusan strategis tunggal. Pada bulan Juni, Meta menginvestasikan $ 14,3 miliar untuk 49% saham dalam skala AI.
Langkah ini adalah gamba putus asa dengan meta untuk melawan kekacauan internalnya sendiri, termasuk pembuangan talenta yang parah dan pengembangan model AI yang macet. Lab”Superintelligence”. Seperti yang dicatat oleh seorang analis, itu adalah investasi “bahkan tidak membeli seluruh perusahaan tetapi hanya untuk memiliki kepala perusahaan yang mengepalai upaya AI Anda.”
Sementara kudeta strategis untuk meta, kemitraan ini menghancurkan fondasi model bisnis skala: netralitas.
Untuk perusahaan label data, Trust adalah The Ulttimate Murrency. Mereka dipercayakan dengan data sensitif, hak milik dan peta jalan produk di masa depan dari raksasa teknologi yang bersaing. Kesepakatan meta menghancurkan kepercayaan itu dalam sekejap.
Konsekuensinya langsung dan parah. Keluaran klien dimulai sebagai raksasa industri, termasuk Google, Microsoft, dan XAI Elon Musk, mulai meninjau kemitraan mereka, khawatir data mereka dapat terpapar pada pesaing langsung.
Google, dilaporkan skala pelanggan terbesar ini, mulai merencanakan untuk memutuskan kontrak hingga $ 200 juta.
Kehilangan Corpects Insrepers Burpiker ini. Pada bulan Juli, hanya satu bulan setelah kesepakatan meta, perusahaan memberhentikan 14% dari tenaga kerjanya, yang mempengaruhi 200 karyawan penuh waktu dan 500 kontraktor. Pemotongan ditangani secara tiba-tiba, dengan staf dilaporkan ditutup dari sistem sebelum mereka bangun.
Compoxing Krisis adalah laporan tentang kegagalan keamanan kritis yang mengekspos data klien pada Google Documents publik, lebih lanjut merusak reputasinya untuk penanganan data yang aman. Penataan kembali pasar menciptakan peluang besar bagi saingan skala, dengan perusahaan-perusahaan seperti Surge AI dilaporkan mencari modal baru untuk menyerap klien yang melarikan diri.
Gejolak ini memuncak dalam tindakan hukum. Pada awal September, skala AI mengajukan gugatan spionase perusahaan terhadap perusahaan saingan Mercor dan mantan eksekutif, Eugene Ling.
Gugatan tersebut menuduh Ling mencuri lebih dari 100 dokumen rahasia yang berisi rahasia dagang sebelum bergabung dengan pesaing. Langkah ini menandakan sebuah perusahaan di bawah tekanan besar, sekarang berjuang untuk melindungi kekayaan intelektualnya ketika para pesaing memanfaatkan ketidakstabilannya.
permainan taruhan tinggi dari papan letak yang cacat
Segel. Puncak. Peringkat dapat mendorong buzz media, kontrak perusahaan, dan penilaian yang lebih tinggi, menciptakan tekanan besar bagi laboratorium untuk berkinerja baik, kadang-kadang melalui cara yang dipertanyakan. Ini telah memunculkan”Perang Benchmark,”di mana persepsi dominasi sama pentingnya dengan kinerja yang sebenarnya.
Fokus intens ini pada metrik ini telah menyebabkan praktik seperti”Hillclimbing.”Sebuah laporan baru-baru ini mengungkapkan Kontraktor Menyewa Xai Elon Musk dengan tujuan eksplisit melatih model Grok untuk mengalahkan CLAUDE Anthropic saingannya di papan peringkat pengkodean Webdev Arena yang berpengaruh.
Dokumen onboarding internal dengan blak-blakan menyatakan, “Kami ingin membuat model in-task sebagai model #1, menurut Business Insider .
Pendekatan”Mengajar untuk Tes”ini telah membagi komunitas AI. Beberapa, seperti CEO Lmarena Anastasios Angelopoulos, melihatnya sebagai bagian standar dari pengembangan, memberi tahu orang dalam bisnis,”Ini adalah bagian dari alur kerja standar pelatihan model. Anda perlu mengumpulkan data untuk meningkatkan model Anda.”
Yang lain lebih skeptis, memperingatkan bahwa hal itu mengarah pada hasil yang terdistorsi. Sara Hooker, Kepala Cohere Labs, berpendapat bahwa “Ketika papan peringkat penting untuk seluruh ekosistem, insentif diselaraskan agar dapat dipermalukan.”
Ini bukan hanya masalah teoretis. Fokus yang intens pada tolok ukur tampaknya menciptakan kesenjangan berbahaya antara kinerja model pada tes dan bagaimana mereka berfungsi di dunia nyata.
Ini adalah contoh klasik dari hukum Goodhart, di mana suatu ukuran berhenti berguna setelah menjadi target utama. As AI strategist Nate Jones wrote, “the moment we set leaderboard dominance as the goal, we risk creating models that excel in trivial exercises and flounder when facing reality.”
The problem is systemic, according to a July study co-authored by researchers from Amazon, Stanford, and MIT.
The paper delivered a warning: many AI benchmarks are deeply flawed, capable of misestimating a model’s true performance by Hingga 100% karena masalah pengaturan tugas dan desain hadiah. Para penulis menemukan kekurangan ini dapat salah mengarahkan agen pada papan peringkat kompetitif sebanyak 40 persen.
Bahkan sebelum penelitian ini, para kritikus mempertanyakan validitas ilmiah platform crowdsourced. Profesor University of Washington Emily Bender berpendapat bahwa “untuk menjadi valid, tolok ukur perlu mengukur sesuatu yang spesifik, dan perlu membangun validitas…,” mencatat bahwa Lmarena tidak membuktikan bahwa suara pengguna benar-benar berkorelasi dengan kualitas model, menurut techCrunch.
tim lmarena telah mendorong kembali, yang mencerminkan dalam sebuah blog mereka memposting di mana mereka memposting di sebuah mobil mereka memposting di depan mereka. Desain.”
Bagaimana Seal Showdown bertujuan untuk membangun tolok ukur yang lebih baik
Skala AI memposisikan penampilan segel sebagai penangkal pendekatan yang saat ini cacat dari benchmarking model AI. Perusahaan berpendapat bahwa papan peringkat hari ini condong karena mereka sangat bergantung pada umpan balik dari sekelompok penyanyi yang lebih banyak dari perusahaan. jaringan. Jaringan ini mencakup lebih dari 100 negara, 70 bahasa, dan berbagai profesi, menjanjikan evaluasi kinerja model yang lebih representatif dan realistis.
Untuk pertama kalinya di papan peringkat publik, pengguna dapat segmen peringkat berdasarkan demografi seperti negara, usia, tingkat pendidikan, dan bahasa. Hal ini memungkinkan pengembang dan pelanggan untuk melihat bagaimana kinerja model untuk audiens tertentu, daripada mengandalkan skor monolitik tunggal.
Misalnya, data awal skala mengungkapkan preferensi regional, dengan chatgpt yang memimpin di Eropa sementara Claude lebih kompetitif di tempat lain. Ini juga menunjukkan bagaimana model seperti Gemini berkinerja lebih baik dengan pengguna non-Inggris, menawarkan wawasan yang sebelumnya tidak tersedia untuk umum.
Yang terpenting, skala juga menerapkan perlindungan terhadap manipulasi. Perusahaan menyatakan tidak akan menjual atau melisensikan data terbaru dari distribusi yang sama dengan papan peringkat langsung. Kebijakan ini dirancang untuk mencegah laboratorium AI dari hanya menyetel model mereka untuk”permainan”peringkat, memaksa mereka untuk membangun sistem yang benar-benar mampu.
Langkah ini menggarisbawahi prinsip yang telah menjadi seruan bagi pesaing skala. Seperti yang dikemukakan CEO Turing Jonathan Siddharth setelah kesepakatan meta,”Netralitas tidak lagi opsional, itu penting.”Dengan meluncurkan platform yang dibangun di atas transparansi dan netralitas, skala AI berusaha untuk mendapatkan kembali kualitas penting itu.
Pada akhirnya, Seal Showdown lebih dari peluncuran produk; Ini adalah tawaran penebusan berisiko tinggi. Untuk perusahaan yang reputasinya hancur oleh kesepakatan yang mengkompromikan kemandiriannya, membangun tolok ukur industri yang paling tepercaya mungkin satu-satunya jalan kembali ke posisi kepemimpinan.