Az AI supremacy heves versenyén Elon Musk XAI közvetlen célt vett a rivális antropikusra. Egy új jelentés azt mutatja, hogy július elején az Xai vállalkozókat bérelt fel a Grok-modellnek egyértelmű céllal történő kiképzésére: Verte az Antropic’s Claude-t egy nyilvános kódoló ranglistán. A lépés megmutatja az AI laboratóriumokra gyakorolt intenzív nyomást a nyilvános referenciaértékekre, amelyek kulcsfontosságú eredménytáblákként szolgálnak a befektetések és az ügyfelek vonzására. Az XAI zászlóshajója felemeli a piros zászlókat, erősen túlteljesítettnek tűnik, hogy jól gólt szerezzen
“>”>”>”>”>”>”>
Ez a fókusz akkor jön létre, amikor a Grok 4 valós teljesítménye a felhasználók nehéz kérdéseivel szembesül. Target=”_ üres”> A Business Insider számára a projekt utasításai egyértelműek voltak. A vállalkozóknak a „HillClimb” Grok rangsorának feladata volt, egy skála AI fedélzeti dokumentummal, amely kijelenti: „Szeretnénk a feladaton belüli modellt az első számú modellnek.” A konkrét cél az Antropic „Sonnet 3.7 Extended” volt, amely a társaságot kulcsfontosságú riválisként azonosítja az AI kódolási térben. Az olyan laboratóriumok esetében, mint az Xai, az Antropic és az Openai, egy olyan tisztelt táblázat legfelső pontja, mint az Lmarena, közvetlenül a média zümmögésbe, a vállalati szerződésekbe és a magasabb értékelésbe. Az antropikus következetesen a Claude modelleket legfelső szintű kódoló asszisztensekként helyezte el, ezt az állítást az erős referencia-előadások és a fejlesztők elfogadása támogatta. Ez teszi őket tényleges riválissá, hogy legyőzzék. Ez a modell fejlesztésének legitim módszere, vagy egyszerűen tanítja a tesztet a rangsor játékának játékához? Az AI közösség továbbra is megoszlik a kérdésben.
Egyes szakértők ezt a fejlesztési ciklus normál részének tekintik. Az Lmarena vezérigazgatója, Anastasios Angelopoulos, a szokásos eljárásnak tekinti, és azt mondja a Business Insidernek: „Ez a modellképzés szokásos munkafolyamatának része. A modell javításához adatgyűjtést kell gyűjtenie.”Ebből a szempontból a ranglistájú adatok felhasználása a gyengeségek megtalálására és rögzítésére logikus lépés. Sara Hooker, a Cohere Labs vezetője azt állította, hogy „ha egy ranglistán fontos egy egész ökoszisztéma számára, az ösztönzők igazodnak ahhoz, hogy megismerjék.”
Ez nem csupán elméleti aggodalom. Áprilisban a Meta a játék ranglistájának vádjával szembesült, miután a láma 4 Maverick modellje egy változatát a benchmarkinghoz használták a nyilvános változattól, és vitát váltottak ki a kutatók között. való világ. Ez a Goodhart törvényének klasszikus példája, ahol egy intézkedés megszűnik, ha az elsődleges célpontvá válik. Míg az XAI rekordszintű pontszámokat adott az akadémiai tesztekről, gyakorlati teljesítményét azonnal megkérdőjelezték. A Yupp.ai felhasználói-preferencia platformon, amely a fej-fej összehasonlítására támaszkodik, a Grok 4 kezdetben egy rosszindulatú 66. helyen áll. Ezt a szegény show-t annak tulajdonították, hogy a modell lassú és hibás a valós forgatókönyvekben. Július közepétől a Grok 4 a Webdev Aréna 12. helyre emelkedett, még mindig az antropikus modellek nyomon követésével. AI stratégia Nate Jones írta a hírlevelében ,„ A pillanat, amikor a ranglistán dominanciát állítunk be a célra. A fejlesztők számára ez azt jelenti, hogy egy olyan modell, amely a vizsga ACES-je továbbra is kudarcot vall a gyakorlati kódolási feladatoknál, amelyekre szükségük van. Az erőfeszítés akkor következik be, hogy az Xai állítólag egy új adománygyűjtési fordulót keres, amely akár 200 milliárd dollárra is értékelheti azt, így a pozitív címsorok stratégiai eszközt jelentenek. feltárja az AI Labs által játszott magas tétű játékot, ahol a dominancia észlelése, amelyet a referencia-diagramok vezetnek, ugyanolyan fontosak lehetnek, mint a modell tényleges, gyakorlati segédprogramja.