Elon Musk Xai meluncurkan model Grok 4 baru pada 10 Juli, mengklaim itu adalah AI paling kuat di dunia berdasarkan tolok ukur akademik yang memecahkan rekor. Namun, realitas yang sangat berbeda telah muncul sejak debutnya.

Analis independen dan platform preferensi pengguna mengungkapkan model berkinerja buruk dalam skenario dunia nyata, menunjukkan bahwa itu “overfitted” untuk tes ace tetapi tidak memiliki kegunaan praktis. Kesenjangan kinerja ini diamplifikasi oleh minggu peluncuran yang kacau.

Para peneliti juga membuat model dalam 48 jam dan mengungkap kecenderungannya untuk berkonsultasi dengan pendapat pribadi Musk. Narasi dominasi AI Xai sekarang berselisih dengan realitas kinerja yang dipertanyakan, masalah etika yang belum terselesaikan, dan kelemahan keamanan yang persisten.

Raja patokan yang dipertanyakan

Di atas kertas, debut Grok 4 adalah kemenangan dan meningkatkan tekanan pada Openai, yang baru saja kehilangan peneliti kelompok karena meta pesaing yang lebih sulit dan dikalahkan oleh Google dengan pengambilalihan editor koding AI Windsurf yang hampir tidak ada pada windsurf. Benchmark penalaran ARC-AGI-2 dan mencetak 100% sempurna pada Ujian Matematika Undangan Amerika. Musk membual bahwa “sehubungan dengan pertanyaan akademik, Grok 4 lebih baik daripada tingkat PhD di setiap subjek, tidak terkecuali.”

Tetapi klaim ini dengan cepat tampaknya terurai di bawah pengawasan dunia nyata. Masalah inti tampaknya”overfitting,”sebuah fenomena di mana model disesuaikan untuk unggul pada metrik evaluasi spesifik dengan mengorbankan kecerdasan umum. Ini adalah kasus klasik dari Hukum Goodhart , di mana,”pukul, di mana ada target, ia menjadi target, ia menjadi target, ini adalah target yang baik. href=”https://yupp.ai/leaderboard”target=”_ blank”> peringkat model berdasarkan ribuan tes preferensi pengguna head-to-head . Di arena dunia nyata ini, Grok 4 berada di peringkat ke-66 yang suram tak lama setelah dirilis. Jimmy Lin, co-founder of yupp.ai, confirmed the poor showing, stating, “Grok 4 is worse than other leading models: OpenAI o3, Claude Opus 4, and Gemini 2.5 Pro. Grok 4 is liked even less than Grok 3.”

It’s been 36 hours since Grok 4 launched and we have an early verdict based on 6K+ preferences of @yupp_ai users globally on real use cases.

‼️ Grok 4 is worse than other leading models: OpenAI o3, Claude Opus 4, and Gemini 2.5 Pro. Grok 4 disukai bahkan kurang dari Grok 3. 🧵 pic.twitter.com/iui3wpc3hn

-jimmy lin (@lintool) kini naik ke peringkat sekitar 16 , namun socre-nya masih lebih jauh dari model Anthropic 4pt, google Gem, google Gem, Google GEMIN 2, GEMIN GEMIN, GOUG GEMIN.

kaskade kontroversi dan kekusutan ideologis

Kegunaan yang buruk Grok 4 diperparah oleh serangkaian kontroversi. Peluncuran terjadi dalam bayang-bayang kehancuran antisemit pendahulunya yang”mengerikan”, di mana Xai kemudian mengeluarkan permintaan maaf, menyalahkan”bug teknis.”

Pola perilaku yang tidak menentu telah memicu alarm internasional. Mengikuti kehancuran Grok 3, Menteri Urusan Digital Polandia, Krzysztof Gawkowski, mengeluarkan peringatan keras, menyatakan bahwa”kebebasan berbicara adalah milik manusia, bukan kecerdasan buatan.”

Para peneliti juga menemukan bagaimana GROK 4 menampung bias yang penting. Perilaku ini, yang diungkapkan oleh jejak rantai model sendiri, secara langsung bertentangan dengan tujuan Xai untuk menciptakan”AI pencarian kebenaran yang maksimal.”

Analisis lebih lanjut mengungkap”kekusutan”lainnya. Menurut data dari snitchbench , GROK-4 menunjukkan kecenderungan yang ditandai untuk mengadu ke pihak berwenang. Ini menjadikannya proposisi berisiko untuk kepercayaan pengguna. Benchmark dirancang untuk menguji kecenderungan AI terhadap apa yang mungkin dianggapnya sebagai pelaporan pro-sosial. Ini memberikan skenario model dan mengevaluasi apakah ia memilih opsi untuk melaporkan pengguna atau situasi kepada figur otoritas, versus menangani dengan cara lain.

Janji yang rusak dan kerentanan backdoor

Di luar kinerja dan bias, peluncuran Grok 4 telah diangkut dengan direktur. Dalam waktu 48 jam, para peneliti keamanan di NeuralTrust telah berhasil menceritakan model, mendapatkannya untuk menghasilkan instruksi untuk membuat koktail Molotov.

Mereka menggunakan serangan”berbisik”multi-turn-turn-jail-jailbreak=”https://neuraltrust.ai/blog/grok-4-jailbreak”Target=”_ blank”> Menggabungkan dua metode yang dikenal sebagai”Echo Chamber”dan”Crescendo.” Teknik ini secara bertahap memanipulasi konteks percakapan AI untuk mem-bypass filter keselamatannya. Seperti yang dijelaskan oleh peneliti NeuralTrust Ahmad Alobaid, “Serangan Jailbreak LLM tidak hanya berkembang secara individual, mereka juga dapat digabungkan untuk memperkuat keefektifannya.”

Kerentanan yang menyoroti bagaimana pertahanan yang difokuskan pada satu dorongan tunggal tidak disamakan untuk menangani manipulasi yang terus-menerus, halus. Jailbreak yang sukses menambah daftar kegagalan yang memalukan dan berbahaya bagi model XAI.

Memperpuat masalah ini, Xai diam-diam berjalan kembali komitmen publik untuk transparansi. Model berat Grok 4 Premium sekarang dirancang untuk menyembunyikan prompt sistemnya, kontradiksi langsung dari janji sebelumnya oleh seorang peneliti XAI untuk menjaga mereka tetap terbuka.

Para kritikus menyarankan fokus intens pada supremasi benchmark adalah upaya yang digerakkan oleh PR untuk membenarkan penilaian tinggi Xai dan mengubah narasi setelah satu minggu skandal. XAI saat ini sedang mempersiapkan putaran penggalangan dana baru yang dapat menghargai hingga $ 200 miliar. Sementara tim di XAI mengirim dengan kecepatan yang luar biasa, debut Grok 4 yang cacat menunjukkan bahwa dalam perlombaan untuk dominasi AI, utilitas dan keamanan dunia nyata mungkin telah tertinggal.

Categories: IT Info