W zaciętym wyścigu o supremację AI XAI Elona Muska bezpośrednio celował w rywal antropic. Nowy raport pokazuje, że na początku lipca XAI zatrudnił wykonawców do wyszkolenia swojego modelu GROK z wyraźnym celem: pokonaj Claude’a Anthropica na tablicy liderzy publicznej. Ten ruch pokazuje intensywną presję na laboratoria AI na szczycie publicznych punktów odniesienia, które działają jako kluczowa tablica wyników dla przyciągania inwestycji i klientów.
Powiązane: Czy Grok 4 jest zwycięzcą odniesienia? Flagowy model XAI podnosi czerwone flagi, wydaje się mocno przepełniony, aby dobrze oceniać
To skupiono się, ponieważ rzeczywista wydajność Grok 4 stoi w obliczu trudnych pytań od użytkowników.
Bitwa walczyła o publiczne tablice liderów
Według Dla Business Insider instrukcje projektu były jednoznaczne. Zadaniem wykonawców mieli za zadanie „ranking Hillclimb”, z dokumentem na pokładzie AI, stwierdzającym: „Chcemy uczynić model w dziedzinie modelu nr 1″. Szczególnym celem był „rozszerzony sonet 3.7″, identyfikowanie firmy jako kluczowego rywala w przestrzeni kodowania AI.
Ta strategia podkreśla ogromny wpływ publicznych tablic wyników w kształtowaniu narracji AI. W przypadku laboratoriów takich jak XAI, Anthropic i Openai, najważniejsze miejsce na szanowanym wykresie, takim jak Lmarena, może przełożyć się bezpośrednio na szum mediów, umowy przedsiębiorcze i wyższą wycenę.
Wybór celu jest wymowy. Anthropic konsekwentnie pozycjonuje swoje modele Claude jako asystentów kodowania najwyższego poziomu, roszczenie poparte silnymi wynikami porównawczymi i przyjęciem programistów. To sprawia, że de facto rywala do pokonania.
Standardowa praktyka lub gra systemu?
Praktyka intensywnego szkolenia modelu na określonych formatach testowych rodzi pytania. Czy jest to uzasadniona metoda poprawy modelu, czy po prostu nauczanie testu do gry w rankingu? Społeczność AI pozostaje podzielona na ten problem.
Niektórzy eksperci postrzegają ją jako normalną część cyklu rozwoju. Dyrektor generalny Lmareny, Anastasios Angelopoulos, postrzega go jako standardową procedurę, mówiąc Business Insider: „Jest to część standardowego przepływu pracy w zakresie szkolenia modelu. Musisz zbierać dane, aby ulepszyć swój model”. Z tej perspektywy użycie danych z tabeli liderów w celu znalezienia i ustalenia słabości jest logicznym krokiem.
Jednak inne są bardziej sceptyczne, ostrzegając, że nadmierne skupienie się na wskaźnikach może prowadzić do zniekształconych wyników. Sara Hooker, szef Cohere Labs, argumentowała, że „gdy tablica liderowa jest ważna dla całego ekosystemu, zachęty są wyrównane, aby go było.”
To nie jest tylko teoretyczna troska. W kwietniu Meta stanęła przed oskarżeniami o tablice liderów gier po wariantie swojego modelu Mavericka LAMA 4 używanego do testów porównawczych różniły się od wersji publicznej, wywołując debatę wśród badaczy.
Rozszerzając lukę między modelami między testami a rzeczywistością
prawdziwy świat. Jest to klasyczny przykład prawa Goodharta, w którym miara przestaje być przydatna, gdy staje się głównym celem.
premiera Grok 4 zapewnia odkrywczą ilustrację tego. Podczas gdy XAI reklamował rekordowe wyniki w testach akademickich, jego praktyczne wyniki zostały natychmiast zakwestionowane. Na platformie preferencji użytkowników Yupp.ai, która opiera się na porównań na głowie, Grok 4 początkowo zajął ponure 66..
Yupp.ai, Jimmy Lin, Jimmy Lin Bluntly, „Grok 4 jest gorszy niż inne wiodące modele: Openai O3, Claude Opus 4 i Gemini 2.5 Pro. Ten słaby pokaz został przypisany modelu powolnym i podatnym na błędy w scenariuszach w świecie rzeczywistym. Od połowy lipca Grok 4 wspiął się na 12. miejsce na arenie WebDev, wciąż podążając za modelem Anthropic.
WebDev Arena Leaderboard (22/22/2025)
To rozłączenie wielu obserwatorów branży. Strateg AI Nate Jones pisał w swoim biuletynie , „moment, w którym ustawiamy dominację liderów jako cel, celowaliśmy, tworząc modele, które wypowiadają się w trywialnych ćwiczeniach i flazjach, gdy skierowaliśmy się na rzeczywistość. W przypadku programistów oznacza to model, który ACES może nadal zawodzić w praktycznych zadaniach kodujących, których potrzebują.
Wysokie stawki i niespokojne wdrożenie
Push for Lider Board Dominacja nie polega tylko na prawach chwalenia. Wysiłek pojawia się, gdy XAI podobno szuka nowej rundy zbierania funduszy, która mogłaby ją docenić nawet do 200 miliardów dolarów, co stanowi pozytywne nagłówki strategiczne.
Ta presja, aby wykonać na odniesieniach. Ujawnia, że gra o wysokich stawkach jest grana przez AI Labs, w której postrzeganie dominacji, napędzane wykresami porównawczymi, może być równie ważne, jak faktyczna, praktyczna użyteczność modelu.