Dalam perlombaan sengit untuk supremasi AI, Elon Musk’s Xai membidik langsung antropik saingan. Sebuah laporan baru menunjukkan bahwa pada awal Juli, XAI mempekerjakan kontraktor untuk melatih model Grok dengan tujuan yang jelas: mengalahkan Claude Anthropic pada papan peringkat pengkodean publik.

Dokumen internal mengatakan kepada para pekerja pada platform AI skala untuk membantu Grok menaiki jajaran arena webdev yang berpengaruh. Langkah ini menunjukkan tekanan intens pada laboratorium AI ke tolok ukur publik, yang bertindak sebagai papan skor utama untuk menarik investasi dan pelanggan.

Terkait: Apakah Grok 4 hanyalah pemenang benchmark? Model andalan XAI menaikkan bendera merah, tampaknya sangat berlebihan untuk mencetak sumur

Fokus ini muncul ketika kinerja dunia nyata Grok 4 menghadapi pertanyaan sulit dari pengguna.

pertempuran yang diperjuangkan di papan peringkat publik

Menurut kepada Business Insider, instruksi proyek tidak ambigu. Kontraktor ditugaskan untuk”Hillclimb”peringkat Grok, dengan dokumen orientasi skala AI yang menyatakan,”Kami ingin menjadikan model in-Task sebagai model #1.”Target spesifiknya adalah”Sonnet 3.7 Extended,”Antropik mengidentifikasi perusahaan sebagai saingan utama dalam ruang pengkodean AI.

Strategi ini menggarisbawahi pengaruh besar papan peringkat publik dalam membentuk narasi AI. Untuk laboratorium seperti Xai, Anthropic, dan Openai, tempat teratas pada bagan yang dihormati seperti Lmarena dapat diterjemahkan langsung ke dalam buzz media, kontrak perusahaan, dan penilaian yang lebih tinggi.

Pilihan target memberi tahu. Antropik telah secara konsisten memposisikan model Claude-nya sebagai asisten pengkodean tingkat atas, klaim yang didukung oleh kinerja tolok ukur yang kuat dan adopsi pengembang. Ini membuat mereka menjadi saingan de facto untuk dikalahkan.

Praktik standar atau bermain sistem sistem?

Praktik melatih model intens pada format tes tertentu menimbulkan pertanyaan. Apakah ini metode yang sah untuk meningkatkan model, atau hanya mengajar untuk menguji peringkat peringkat? Komunitas AI tetap terbagi dalam masalah ini.

Beberapa ahli melihatnya sebagai bagian normal dari siklus pengembangan. CEO Lmarena, Anastasios Angelopoulos, memandangnya sebagai prosedur standar, memberi tahu orang dalam bisnis,”Ini adalah bagian dari alur kerja standar pelatihan model. Anda perlu mengumpulkan data untuk meningkatkan model Anda.”Dari perspektif ini, menggunakan data papan peringkat untuk menemukan dan memperbaiki kelemahan adalah langkah logis.

Namun, yang lain lebih skeptis, memperingatkan bahwa fokus yang berlebihan pada metrik dapat menyebabkan hasil yang menyimpang. Sara Hooker, Kepala Cohere Labs, berpendapat bahwa “Ketika papan peringkat penting untuk seluruh ekosistem, insentif diselaraskan agar dapat dipermalukan.”

Ini bukan hanya masalah teoretis. Pada bulan April, Meta menghadapi tuduhan papan peramal game setelah varian dari model Llama 4 Maverick yang digunakan untuk pembandingan berbeda dari versi publik, memicu perdebatan di antara para peneliti.

Kaum yang melebar antara berbagai hal dalam hal tolok ukur dan real yang terjadi pada hal-hal yang terjadi pada hal-hal yang terjadi pada hal-hal yang berkaitan dengan hal-hal yang berkaitan dengan bangku dan hal-hal yang berkaitan dengan bangku yang berkaitan dengan bangku mereka dan menjadi fokus pada bangku yang berkaitan dengan bangku mereka ini. dunia. Ini adalah contoh klasik dari hukum Goodhart, di mana suatu ukuran berhenti bermanfaat setelah menjadi target utama.

Peluncuran Grok 4 memberikan ilustrasi yang mengungkapkan hal ini. Sementara Xai menggembar-gemborkan skor pemecah rekor pada tes akademik, kinerja praktisnya segera dipertanyakan. Pada platform preferensi pengguna yupp.ai, yang bergantung pada perbandingan head-to-head, Grok 4 awalnya peringkat ke-66 yang suram.

yupp.ai co-founder Jimmy Lin dengan blak-blakan menyatakan,”Grok 4 lebih buruk daripada model terkemuka lainnya: Openai O3, Claude Opus 4, dan Gemini 2.5 Pro. Pertunjukan yang buruk ini disebabkan oleh model yang lambat dan rentan kesalahan dalam skenario dunia nyata. Pada pertengahan Juli, Grok 4 telah naik ke posisi ke-12 di Webdev Arena, masih membuntuti model Anthropic.

Webdev Arena Leaderboard (07/22/2025)

Pemutusan ini mengkhawatirkan banyak pengamat industri. AI Strategi Nate Jones Menulis dalam buletinnya ,”Momen kami menetapkan dominasi papan peringkat sebagai gol, kami berisiko membuat model yang mengekspel. Bagi pengembang, ini berarti model yang mungkin masih gagal dalam tugas pengkodean praktis yang mereka butuhkan untuk melakukan.

Taruhan tinggi dan peluncuran bermasalah

Dorongan untuk dominasi papan peringkat bukan hanya tentang hak-hak menyombongkan diri. Upaya ini terjadi ketika XAI dilaporkan mencari putaran penggalangan dana baru yang dapat menghargainya hingga $ 200 miliar, menjadikan headlines positif sebagai aset strategis.

Tekanan untuk melakukan pada tolok ukur bertepatan dengan minggu peluncuran yang kacau untuk Grok 4, yang telah dinodai oleh kelemahan keamanan dan wahyu dari bias ideasikal yang dibawa ke dalam respons overologicalnya di dalamnya, respons overological, respons overological. Gim berisiko tinggi dimainkan oleh AI Labs, di mana persepsi dominasi, didorong oleh bagan tolok ukur, bisa sama pentingnya dengan utilitas praktis model yang sebenarnya.

Categories: IT Info