Elon Musk’s Artificial Intelligence Company XAI opublikowała Grok 3, główną aktualizację do swojej chatbota, o której firma twierdzi, że jest „dziesięciokrotnie bardziej zdolna” niż poprzednia wersja.
Grok 3 jest obecnie dostępna wyłącznie dostępna do X Premium+ subskrybentów, integracja bezpośrednio z X Platformą Social w ramach wysiłków Musk w celu zwiększenia interakcji napędzanych AI w ekosystemie.
Jak Grok 3 porównuje się do Openai, Google i Anthropic
Grok 3 zdobył 52 w matematyce (AIME’24), znacznie przed GPT-4O (9) i Sonet Claude 3.5 (16). W Science (GPQA) prowadził z 75, przewyższając Gemini 2 Pro, Claude 3.5 i Deepseek-V3, które wszystkie uzyskały 65, podczas gdy GPT-4O opóźnił się na 50. Kodowanie (LCB OCT-FEB) również widziało GROK 3 Prowadzenie w 57, znacznie powyżej GPT-4O (34) i innych rywali. Wyniki te sugerują, że najnowszy model XAI wyróżnia się ustrukturyzowanym rozwiązywaniem problemów i rozumowania technicznym, chociaż wydajność rzeczywistego będzie zależeć od dalszych niezależnych ocen.
Miło cię spotkać PIC.twitter.com/fk1eotsvfm
-Grok (@Grok) 18 lutego 2025 r.
Jednak, jak rex Asabor z Openai wskazał na x , ich niepublikowany model O3 z wciąż wynosi znacznie wyższe wyniki zarówno na GPQA, jak i Aime’24 niż Grok 3 w trybie myślenia, zgodnie z ich wewnętrznymi testami.
Z jakiegoś powodu pominęli O3 z wykresu w transmisji na żywo, więc dodałem liczby dla ciebie PIC.twitter.com/vfevorhdy0
-Rex (@12exyz) 18 lutego, 2025
‘Rozumowanie i głębokie wyszukiwanie
wyróżniające się Funkcją w Grok 3 jest przycisk „Think”, który pozwala użytkownikom żądać bardziej szczegółowej i analitycznej odpowiedzi, dając AI dodatkowego czasu przetwarzania. Celem jest poprawa dokładności rozumowania i zwiększenie zdolności modelu do radzenia sobie złożonych zadań.
Przycisk umożliwia zaawansowany łańcuch rozumowania myślenia, który podobnie jak modele O1 i O3 Openai, a także Deepseek R1 ma na celu zapewnienie użytkownikom wyników wyników Na podstawie złożonego myślenia
Grok 3 wprowadza również własne przyjęcie funkcji badawczych opartych na AI podobnych do głębokich badań Openai i głębokich badań Google Gemini. Narzędzie pozwala GROK 3 na pobieranie i syntetyzację informacji w czasie rzeczywistym, co czyni go konkurentem zarówno głębokich produktów badawczych, jak i kłopotliwej AI, które właśnie rozpoczęły własne wdrożenie głębokich badań.
Andrej Karpathy, były Tesla Dyrektor AI i wczesny tester Grok 3, który uzyskał wczesny dostęp, stwierdził, że dzięki trybie „Think” włączony model z powodzeniem oszacował Flopy treningowe Wymagane do GPT-2 Openai, zadanie, które nie powiodła się nawet najpotężniejszy model Openai O1-PRO. Karpathy zauważył: „Grok 3 z myśleniem rozwiązuje to świetnie, podczas gdy O1 Pro (model myślenia GPT) zawodzi.”
W badaniach w czasie rzeczywistym głębokie wyszukiwanie daje Grok 3 przewagę nad wieloma modelami, ale jego dokładność Problemy stawiają to za głębokie badania i zakłopotanie AI Openai. Narzędzie.
Pod względem rozumowania, nowy tryb głębokiego wyszukiwania Grok 3 pozwala mu dopasować O1-PRO Openai w niektórych zadaniach ciężkich logiki. Jednak nadal walczy z rozumowaniem przestrzennym, co wykazał nieudany test generowania tablicy TIC-TAC-TOE. Stawia to go za GPT-4O, które zostało znane z zaawansowanych możliwości logicznych.
Kreatywność pozostaje kolejnym słabym punktem. Claude był szeroko chwalony za naturalny i wciągający styl pisania, podczas gdy Grok 3 nadal tworzy odpowiedzi, które wydają się formalne.
W innym teście Grok 3 był w stanie poprawnie wygenerować Settlers of Catan Board Configuat , wyzwaniem, z którym zmaga się wiele modeli AI. Jednak, gdy poproszono jednak o wygenerowanie trudnych płyt TIC-TAC-TOE, model nie powiódł się, wytwarzając nonsensowne układy. Karpathy zauważył: „Rozwiązało kilka tablic TAC TAC TAE, dałem mu całkiem ładny/czysty łańcuch myślenia… ale nie udało mi się wygenerować trudnych.”
Otrzymałem wczesny dostęp do GroK 3 Wcześniej dzisiaj, czyniąc mnie, myślę, że jeden z pierwszych, którzy mogliby przeprowadzić szybką kontrolę klimatu.
myślenie
✅ Po pierwsze, Grok 3 wyraźnie ma najnowocześniejszy model myślenia sztuki („Pomyśl” przycisk) i zrobiłem świetnie po pudełku na moich osadnikach Catan… pic.twitter.com/qiruan1ifd-Andrej Karpathy (@karpathy) 18 lutego 2025 r.
Pomimo tych ulepszeń w taskach logicznych i matematycznych, Grok 3 nadal ma znaczące słabości. Karpathy stwierdzająca: „Niestety poczucie humoru modelu nie wydaje się oczywiście ulepszone… Generowanie żartów pozostaje nieaktualne i powtarzalne”. Sugeruje to, że XAI nie ulepszył jeszcze zdolności kreatywnych i konwersacyjnych chatbota.
Legalna walka Muska z pozycją Openai i XAI w wyścigu AI
Grok 3’s Wydanie pojawia się, gdy piżmo pozostaje zamknięte w legalnej bitwie z Openai. Musk, który był współzałożycielem Openai w 2015 r. Przed odejściem, oskarżył firmę o porzucenie misji non-profit na rzecz partnerstwa korporacyjnego, szczególnie jej pogłębiającymi się powiązaniami z Microsoft.
MUSK niedawno złożył ofertę 97,4 miliarda dolarów na przejęcie Openai, który został odrzucony przez ich zarząd. W swoim pozwie przeciwko firmie twierdzi, że przekształcił się w „przedsiębiorstwo AI zamknięte”, skoncentrował się na maksymalizacji zysków zamiast posuw sztucznej inteligencji na rzecz ludzkości. Openai zaprzeczył tym roszczeniom, stwierdzając, że pozostaje zaangażowany w bezpieczne oraz etyczne rozwój AI.
poprzez opracowanie Grok 3 i integrację go z X, Musk pozycjonuje XAI jako alternatywę dla ekosystemów AI Budowanie przez Openai, Google i Anthropic.
W przeciwieństwie do Chatgpt Openai, który oferuje bezpłatne i wielopoziomowe plany subskrypcji, Grok 3 pozostaje za wypłatą, wymagając od użytkowników Subskrybuj najwyższy poziom premium na X, aby uzyskać dostęp do jego funkcji.
Oprócz standardowej wersji Grok 3, XAI podobno pracuje nad bardziej zaawansowanym wariantem o nazwie SuperGrok. Podczas gdy szczegóły pozostają rzadkie, Musk zasugerował, że SuperGrok wykorzystuje jeszcze większą moc obliczeniową z superkomputera Colossus, potencjalnie oferując silniejsze zdolności rozumowania i ulepszone możliwości multimodalne.
To może ustawić SuperGrok jako odpowiedź XAI na najsilniejszą przedsiębiorstwa Openai na najsilniejszym przedsiębiorstwie Openai na temat Openai.-Zarsze modele, kierowanie badaczami, programistami i firmami, które wymagają bardziej wyrafinowanej wydajności AI. Jednak nie ogłoszono jeszcze oficjalnej daty premiery ani cen dla SuperGrok.
Musk wcześniej zasugerował, że Grok 4 jest już w rozwoju i oczekuje się, że wprowadzi zaawansowane multimodalne możliwości sztucznej inteligencji. Umożliwiłoby to modelu przetwarzanie nie tylko tekstu, ale także obrazów, wideo i dźwięku w czasie rzeczywistym, podobnym do GPT-4O Openai.
Wraz z agresywnym rozszerzeniem kolosu przez XAI, przyszłe iteracje Grok prawdopodobnie będą kontynuowane Aby zobaczyć poprawę rozumowania, kreatywności i możliwości badań w czasie rzeczywistym. Jednak firma będzie musiała rozwiązać problemy z niezawodnością głębokiego wyszukiwania i zwiększyć jakość zaangażowania Chatbota, aby naprawdę rywalizować z wiodącymi modelami AI w branży.