Elon Musk's Xai wprowadza Grok 3, detronizując Openai na kluczowych testach testowych AI

Elon Musk’s Artificial Intelligence Company XAI opublikowała Grok 3, główną aktualizację do swojej chatbota, o której firma twierdzi, że jest „dziesięciokrotnie bardziej zdolna” niż poprzednia wersja.

Grok 3 jest obecnie dostępna wyłącznie dostępna do X Premium+ subskrybentów, integracja bezpośrednio z X Platformą Social w ramach wysiłków Musk w celu zwiększenia interakcji napędzanych AI w ekosystemie.

https://t.co/hefq31ganq

-xai (=Zastrzeżona architektura modelu XAI i działa na superkomputerowi Colossus, Który piżma jest obecnie do miliona procesorów graficznych NVIDIA. poprawił się w niektórych obszarach, wciąż zmaga się z problemami z dokładnością w głębokim wyszukiwaniu, ograniczonymi możliwościami humoru i niepowodzeniami rozumowania w niektórych złożonych zadaniach rozwiązywania problemów. Wydanie pojawia się również pośród trwającego sporu prawnego Muska z Openai, dalsze intensyfikujące konkurencję w przestrzeni AI.

Jak Grok 3 porównuje się do Openai, Google i Anthropic

Z nowymi aktualizacjami Grok 3 przedstawia się jako konkurenta wiodącego modeli AI, takich jak Openai’s GPT-4O, Google’s Gemini 2.0 i Anthropic’s Claude. Według wyników testów pokazanych przez XAI, GROK 3 przewyższa swoich konkurentów w kluczowych testach testowych AI, wykazując silne możliwości matematyki, nauki i zadań kodowania.

Grok 3 zdobył 52 w matematyce (AIME’24), znacznie przed GPT-4O (9) i Sonet Claude 3.5 (16). W Science (GPQA) prowadził z 75, przewyższając Gemini 2 Pro, Claude 3.5 i Deepseek-V3, które wszystkie uzyskały 65, podczas gdy GPT-4O opóźnił się na 50. Kodowanie (LCB OCT-FEB) również widziało GROK 3 Prowadzenie w 57, znacznie powyżej GPT-4O (34) i innych rywali. Wyniki te sugerują, że najnowszy model XAI wyróżnia się ustrukturyzowanym rozwiązywaniem problemów i rozumowania technicznym, chociaż wydajność rzeczywistego będzie zależeć od dalszych niezależnych ocen.

Miło cię spotkać PIC.twitter.com/fk1eotsvfm

-Grok (@Grok) 18 lutego 2025 r.

Jednak, jak rex Asabor z Openai wskazał na x , ich niepublikowany model O3 z wciąż wynosi znacznie wyższe wyniki zarówno na GPQA, jak i Aime’24 niż Grok 3 w trybie myślenia, zgodnie z ich wewnętrznymi testami.

Z jakiegoś powodu pominęli O3 z wykresu w transmisji na żywo, więc dodałem liczby dla ciebie PIC.twitter.com/vfevorhdy0

-Rex (@12exyz) 18 lutego, 2025

‘Rozumowanie i głębokie wyszukiwanie

wyróżniające się Funkcją w Grok 3 jest przycisk „Think”, który pozwala użytkownikom żądać bardziej szczegółowej i analitycznej odpowiedzi, dając AI dodatkowego czasu przetwarzania. Celem jest poprawa dokładności rozumowania i zwiększenie zdolności modelu do radzenia sobie złożonych zadań.

Przycisk umożliwia zaawansowany łańcuch rozumowania myślenia, który podobnie jak modele O1 i O3 Openai, a także Deepseek R1 ma na celu zapewnienie użytkownikom wyników wyników Na podstawie złożonego myślenia

Grok 3 wprowadza również własne przyjęcie funkcji badawczych opartych na AI podobnych do głębokich badań Openai i głębokich badań Google Gemini. Narzędzie pozwala GROK 3 na pobieranie i syntetyzację informacji w czasie rzeczywistym, co czyni go konkurentem zarówno głębokich produktów badawczych, jak i kłopotliwej AI, które właśnie rozpoczęły własne wdrożenie głębokich badań.

Andrej Karpathy, były Tesla Dyrektor AI i wczesny tester Grok 3, który uzyskał wczesny dostęp, stwierdził, że dzięki trybie „Think” włączony model z powodzeniem oszacował Flopy treningowe Wymagane do GPT-2 Openai, zadanie, które nie powiodła się nawet najpotężniejszy model Openai O1-PRO. Karpathy zauważył: „Grok 3 z myśleniem rozwiązuje to świetnie, podczas gdy O1 Pro (model myślenia GPT) zawodzi.”

W badaniach w czasie rzeczywistym głębokie wyszukiwanie daje Grok 3 przewagę nad wieloma modelami, ale jego dokładność Problemy stawiają to za głębokie badania i zakłopotanie AI Openai. Narzędzie.

Pod względem rozumowania, nowy tryb głębokiego wyszukiwania Grok 3 pozwala mu dopasować O1-PRO Openai w niektórych zadaniach ciężkich logiki. Jednak nadal walczy z rozumowaniem przestrzennym, co wykazał nieudany test generowania tablicy TIC-TAC-TOE. Stawia to go za GPT-4O, które zostało znane z zaawansowanych możliwości logicznych.

Kreatywność pozostaje kolejnym słabym punktem. Claude był szeroko chwalony za naturalny i wciągający styl pisania, podczas gdy Grok 3 nadal tworzy odpowiedzi, które wydają się formalne.

W innym teście Grok 3 był w stanie poprawnie wygenerować Settlers of Catan Board Configuat , wyzwaniem, z którym zmaga się wiele modeli AI. Jednak, gdy poproszono jednak o wygenerowanie trudnych płyt TIC-TAC-TOE, model nie powiódł się, wytwarzając nonsensowne układy. Karpathy zauważył: „Rozwiązało kilka tablic TAC TAC TAE, dałem mu całkiem ładny/czysty łańcuch myślenia… ale nie udało mi się wygenerować trudnych.”

Otrzymałem wczesny dostęp do GroK 3 Wcześniej dzisiaj, czyniąc mnie, myślę, że jeden z pierwszych, którzy mogliby przeprowadzić szybką kontrolę klimatu.

myślenie
✅ Po pierwsze, Grok 3 wyraźnie ma najnowocześniejszy model myślenia sztuki („Pomyśl” przycisk) i zrobiłem świetnie po pudełku na moich osadnikach Catan… pic.twitter.com/qiruan1ifd

-Andrej Karpathy (@karpathy) 18 lutego 2025 r.

Pomimo tych ulepszeń w taskach logicznych i matematycznych, Grok 3 nadal ma znaczące słabości. Karpathy stwierdzająca: „Niestety poczucie humoru modelu nie wydaje się oczywiście ulepszone… Generowanie żartów pozostaje nieaktualne i powtarzalne”. Sugeruje to, że XAI nie ulepszył jeszcze zdolności kreatywnych i konwersacyjnych chatbota.

Legalna walka Muska z pozycją Openai i XAI w wyścigu AI

Grok 3’s Wydanie pojawia się, gdy piżmo pozostaje zamknięte w legalnej bitwie z Openai. Musk, który był współzałożycielem Openai w 2015 r. Przed odejściem, oskarżył firmę o porzucenie misji non-profit na rzecz partnerstwa korporacyjnego, szczególnie jej pogłębiającymi się powiązaniami z Microsoft.

MUSK niedawno złożył ofertę 97,4 miliarda dolarów na przejęcie Openai, który został odrzucony przez ich zarząd. W swoim pozwie przeciwko firmie twierdzi, że przekształcił się w „przedsiębiorstwo AI zamknięte”, skoncentrował się na maksymalizacji zysków zamiast posuw sztucznej inteligencji na rzecz ludzkości. Openai zaprzeczył tym roszczeniom, stwierdzając, że pozostaje zaangażowany w bezpieczne oraz etyczne rozwój AI.

poprzez opracowanie Grok 3 i integrację go z X, Musk pozycjonuje XAI jako alternatywę dla ekosystemów AI Budowanie przez Openai, Google i Anthropic.

W przeciwieństwie do Chatgpt Openai, który oferuje bezpłatne i wielopoziomowe plany subskrypcji, Grok 3 pozostaje za wypłatą, wymagając od użytkowników Subskrybuj najwyższy poziom premium na X, aby uzyskać dostęp do jego funkcji.

Oprócz standardowej wersji Grok 3, XAI podobno pracuje nad bardziej zaawansowanym wariantem o nazwie SuperGrok. Podczas gdy szczegóły pozostają rzadkie, Musk zasugerował, że SuperGrok wykorzystuje jeszcze większą moc obliczeniową z superkomputera Colossus, potencjalnie oferując silniejsze zdolności rozumowania i ulepszone możliwości multimodalne.

To może ustawić SuperGrok jako odpowiedź XAI na najsilniejszą przedsiębiorstwa Openai na najsilniejszym przedsiębiorstwie Openai na temat Openai.-Zarsze modele, kierowanie badaczami, programistami i firmami, które wymagają bardziej wyrafinowanej wydajności AI. Jednak nie ogłoszono jeszcze oficjalnej daty premiery ani cen dla SuperGrok.

Musk wcześniej zasugerował, że Grok 4 jest już w rozwoju i oczekuje się, że wprowadzi zaawansowane multimodalne możliwości sztucznej inteligencji. Umożliwiłoby to modelu przetwarzanie nie tylko tekstu, ale także obrazów, wideo i dźwięku w czasie rzeczywistym, podobnym do GPT-4O Openai.

Wraz z agresywnym rozszerzeniem kolosu przez XAI, przyszłe iteracje Grok prawdopodobnie będą kontynuowane Aby zobaczyć poprawę rozumowania, kreatywności i możliwości badań w czasie rzeczywistym. Jednak firma będzie musiała rozwiązać problemy z niezawodnością głębokiego wyszukiwania i zwiększyć jakość zaangażowania Chatbota, aby naprawdę rywalizować z wiodącymi modelami AI w branży.

Elon Musk’s Xai wprowadza Grok 3, detronizując Openai na kluczowych testach testowych AI

Published by All Things Windows on February 18, 2025

Jak Grok 3 porównuje się do Openai, Google i Anthropic

‘Rozumowanie i głębokie wyszukiwanie

Legalna walka Muska z pozycją Openai i XAI w wyścigu AI

IT Info

Microsoft wprowadza MUSE AI: rozgrywka generowana przez AI dla programistów Xbox

IT Info

ASUS Prime Geforce RTX 5070 TI Recenzja: Warto uaktualnić?

IT Info

X szuka 44 miliardów dolarów wśród rosnących zmagań finansowych i ambicji ekspansji

Elon Musk’s Xai wprowadza Grok 3, detronizując Openai na kluczowych testach testowych AI

Published by All Things Windows on February 18, 2025

Jak Grok 3 porównuje się do Openai, Google i Anthropic

‘Rozumowanie i głębokie wyszukiwanie

Legalna walka Muska z pozycją Openai i XAI w wyścigu AI

Related Posts

IT Info

Microsoft wprowadza MUSE AI: rozgrywka generowana przez AI dla programistów Xbox

IT Info

ASUS Prime Geforce RTX 5070 TI Recenzja: Warto uaktualnić?

IT Info

X szuka 44 miliardów dolarów wśród rosnących zmagań finansowych i ambicji ekspansji