Adakah Grok 4 hanya pemenang penanda aras? Model perdana Xai menimbulkan bendera merah, kelihatan terlalu banyak untuk menjaringkan gol dengan baik

Elon Musk’s XAI melancarkan model Grok 4 yang baru pada 10 Julai, mendakwa ia adalah AI yang paling berkuasa di dunia berdasarkan penanda aras akademik yang memecahkan rekod. Walau bagaimanapun, realiti yang sangat berbeza telah muncul sejak penampilan sulungnya.

Penganalisis bebas dan platform preferensi pengguna mendedahkan model yang dilakukan dengan buruk dalam senario dunia nyata, yang menunjukkan ia adalah”overfitted”kepada ujian ACE tetapi tidak mempunyai kebolehgunaan praktikal. Jurang prestasi ini dikuatkan oleh minggu pelancaran yang huru-hara.

Penyelidik juga menjatuhkan model dalam masa 48 jam dan mendedahkan kecenderungannya untuk berunding dengan pendapat peribadi Musk. Naratif Xai dominasi AI kini bertembung dengan realiti prestasi yang dipersoalkan, isu etika yang tidak dapat diselesaikan, dan kelemahan keselamatan yang berterusan.

Raja penanda aras yang dipersoalkan

di atas kertas, debut Grok 4 adalah kemenangan dan meningkatkan tekanan pada Openai, yang baru saja kehilangan seorang penyelidik kumpulan untuk meta pesaing dan telah dilepaskan oleh Google. Arc-AGI-2 penanda aras penalaran dan menjaringkan 100% sempurna pada peperiksaan matematik undangan Amerika. Musk membanggakan bahawa”berkenaan dengan soalan akademik, Grok 4 lebih baik daripada tahap PhD dalam setiap subjek, tiada pengecualian.”Isu teras nampaknya”terlalu banyak,”fenomena di mana model disesuaikan dengan baik untuk cemerlang pada metrik penilaian tertentu dengan mengorbankan kecerdasan umum. Ia adalah kes klasik Goodhart’s Law Dalam tindakan, di mana,”Apabila ukuran menjadi sasaran, ia berhenti. Model berdasarkan beribu-ribu ujian keutamaan pengguna kepala-ke-kepala . Di arena dunia nyata ini, Grok 4 telah menduduki tempat ke-66 sejurus selepas pembebasannya. Jimmy Lin, pengasas bersama Yupp.ai, mengesahkan orang yang miskin menunjukkan, menyatakan,”Grok 4 lebih buruk daripada model terkemuka lain: Openai O3, Claude Opus 4, dan Gemini 2.5 Pro. href=”https://twitter.com/yupp_ai?ref_src=twsrc%5etfw”target=”_ blank”>@yupp_ai Pengguna secara global pada kes penggunaan sebenar. Grok 4 disukai walaupun kurang daripada grok 3. href=”https://twitter.com/lintool/status/1943721853186404606?ref_src=twsrc%5etfw”target=”_ blank”Peperiksaan lima tugas bebas mencerminkan penemuan ini, dengan Grok 4 secara konsisten meletakkan terakhir. Ia gagal dalam tugas praktikal seperti menetapkan kod python, menyampaikan penyelesaian yang elegan tetapi tidak berfungsi, dan mengikuti arahan pemformatan yang jelas.

href=”https://yupp.ai/leaderboard/explore?category_names=informational&live_models=false” target=”_blank”>has now climbed to rank around 16, yet its socre this is still far lover than Anthropic’s Claude 4 models, Google’s Gemini 2.5 Pro and even GPT-4o.

A cascade kontroversi dan kinks ideologi

kebolehgunaan miskin grok 4 dikompaun oleh beberapa siri kontroversi. Pelancaran itu berlaku dalam bayang-bayang kemerosotan antisemit yang”mengerikan”pendahulunya, yang mana Xai kemudian mengeluarkan permintaan maaf, menyalahkan”bug teknikal.”Berikutan kemelesetan Grok 3, Menteri Hal Ehwal Digital Poland, Krzysztof Gawkowski, mengeluarkan amaran tegas, mengisytiharkan bahawa”kebebasan bersuara milik manusia, bukan kecerdasan buatan.”Tingkah laku ini, yang diturunkan oleh jejak rantaian yang dipikirkan oleh model itu, secara langsung bercanggah dengan matlamat Xai untuk mewujudkan”AI yang mencari kebenaran maksimal.”

Menurut data dari snitchbench , Grok-4 menunjukkan kecenderungan bertanda untuk snitch kepada pihak berkuasa. Ini menjadikannya cadangan yang berisiko untuk kepercayaan pengguna. Penanda aras direka untuk menguji kecenderungan AI terhadap apa yang mungkin dilihat sebagai pelaporan pro-sosial. Ia memberikan senario model dan menilai sama ada ia memilih pilihan untuk melaporkan pengguna atau situasi kepada angka kuasa, berbanding mengendalikannya dengan cara yang lain. Dalam masa 48 jam, penyelidik keselamatan di NeuralTrust telah berjaya memisahkan model itu, mendapatkannya untuk menghasilkan arahan untuk membuat koktail Molotov. Target=”_ blank”> Menggabungkan dua kaedah yang dikenali sebagai”ruang echo”dan”crescendo.” Teknik ini secara beransur-ansur memanipulasi konteks perbualan AI untuk memintas penapis keselamatannya. Sebagai penyelidik NeuralTrust Ahmad Alobaid menjelaskan,”Serangan jailbreak llm tidak hanya berkembang secara individu, mereka juga boleh digabungkan untuk menguatkan keberkesanannya.”Jailbreak yang berjaya menambah senarai kegagalan yang memalukan dan berbahaya untuk model Xai.

Menggabungkan isu-isu ini, Xai secara senyap-senyap berjalan kembali komitmen awam untuk ketelusan. Model berat Premium Grok 4 kini direka untuk menyembunyikan sistemnya, percanggahan langsung ikrar sebelumnya oleh seorang penyelidik XAI untuk memastikan mereka terbuka. XAI sedang menyediakan pusingan penggalangan dana baru yang boleh menghargai sehingga $ 200 bilion. Walaupun pasukan di Xai kapal pada kadar yang luar biasa, debut Grok 4 yang cacat menunjukkan bahawa dalam perlumbaan untuk dominasi AI, utiliti dan keselamatan dunia nyata mungkin ditinggalkan.

Adakah Grok 4 hanya pemenang penanda aras? Model perdana Xai menimbulkan bendera merah, kelihatan terlalu banyak untuk menjaringkan gol dengan baik

Published by All Things Windows on July 16, 2025

Raja penanda aras yang dipersoalkan

A cascade kontroversi dan kinks ideologi

IT Info

Pengarah Meta Menyelesaikan tuntutan pemegang saham pada minit terakhir, mengelak kesaksian di Cambridge Analytica

IT Info

NVIDIA Blueprints: Memudahkan projek AI dengan skema siap sedia

IT Info

NVIDIA Blueprints: Memudahkan projek AI dengan skema siap sedia

Adakah Grok 4 hanya pemenang penanda aras? Model perdana Xai menimbulkan bendera merah, kelihatan terlalu banyak untuk menjaringkan gol dengan baik

Published by All Things Windows on July 16, 2025

Raja penanda aras yang dipersoalkan

A cascade kontroversi dan kinks ideologi

Related Posts

IT Info

Pengarah Meta Menyelesaikan tuntutan pemegang saham pada minit terakhir, mengelak kesaksian di Cambridge Analytica

IT Info

NVIDIA Blueprints: Memudahkan projek AI dengan skema siap sedia

IT Info

NVIDIA Blueprints: Memudahkan projek AI dengan skema siap sedia