Dalam perlombaan sengit untuk supremasi AI, Elon Musk’s Xai membidik langsung antropik saingan. Sebuah laporan baru menunjukkan bahwa pada awal Juli, XAI mempekerjakan kontraktor untuk melatih model Grok dengan tujuan yang jelas: mengalahkan Claude Anthropic pada papan peringkat pengkodean publik.
Dokumen internal mengatakan kepada para pekerja pada platform AI skala untuk membantu Grok menaiki jajaran arena webdev yang berpengaruh. Langkah ini menunjukkan tekanan intens pada laboratorium AI ke tolok ukur publik, yang bertindak sebagai papan skor utama untuk menarik investasi dan pelanggan.
Terkait: Apakah Grok 4 hanyalah pemenang benchmark? Model andalan XAI menaikkan bendera merah, tampaknya sangat berlebihan untuk mencetak sumur
Fokus ini muncul ketika kinerja dunia nyata Grok 4 menghadapi pertanyaan sulit dari pengguna.
pertempuran yang diperjuangkan di papan peringkat publik
Menurut kepada Business Insider, instruksi proyek tidak ambigu. Kontraktor ditugaskan untuk”Hillclimb”peringkat Grok, dengan dokumen orientasi skala AI yang menyatakan,”Kami ingin menjadikan model in-Task sebagai model #1.”Target spesifiknya adalah”Sonnet 3.7 Extended,”Antropik mengidentifikasi perusahaan sebagai saingan utama dalam ruang pengkodean AI.
Strategi ini menggarisbawahi pengaruh besar papan peringkat publik dalam membentuk narasi AI. Untuk laboratorium seperti Xai, Anthropic, dan Openai, tempat teratas pada bagan yang dihormati seperti Lmarena dapat diterjemahkan langsung ke dalam buzz media, kontrak perusahaan, dan penilaian yang lebih tinggi.
Pilihan target memberi tahu. Antropik telah secara konsisten memposisikan model Claude-nya sebagai asisten pengkodean tingkat atas, klaim yang didukung oleh kinerja tolok ukur yang kuat dan adopsi pengembang. Ini membuat mereka menjadi saingan de facto untuk dikalahkan.
Praktik standar atau bermain sistem sistem?
Praktik melatih model intens pada format tes tertentu menimbulkan pertanyaan. Apakah ini metode yang sah untuk meningkatkan model, atau hanya mengajar untuk menguji peringkat peringkat? Komunitas AI tetap terbagi dalam masalah ini.
Beberapa ahli melihatnya sebagai bagian normal dari siklus pengembangan. CEO Lmarena, Anastasios Angelopoulos, memandangnya sebagai prosedur standar, memberi tahu orang dalam bisnis,”Ini adalah bagian dari alur kerja standar pelatihan model. Anda perlu mengumpulkan data untuk meningkatkan model Anda.”Dari perspektif ini, menggunakan data papan peringkat untuk menemukan dan memperbaiki kelemahan adalah langkah logis.
Namun, yang lain lebih skeptis, memperingatkan bahwa fokus yang berlebihan pada metrik dapat menyebabkan hasil yang menyimpang. Sara Hooker, Kepala Cohere Labs, berpendapat bahwa “Ketika papan peringkat penting untuk seluruh ekosistem, insentif diselaraskan agar dapat dipermalukan.”
Ini bukan hanya masalah teoretis. Pada bulan April, Meta menghadapi tuduhan papan peramal game setelah varian dari model Llama 4 Maverick yang digunakan untuk pembandingan berbeda dari versi publik, memicu perdebatan di antara para peneliti.