Ang Elon Musk's Xai ay naglulunsad ng Grok 3, Dethroning Openai sa Key AI Benchmark

Ang Artipisyal na Intelligence Company ng Elon Musk na si Xai ay naglabas ng Grok 3, isang pangunahing pag-update sa chatbot nito, na inaangkin ng kumpanya na”sampung beses na mas may kakayahang”kaysa sa nakaraang bersyon.

Grok 3 ay magagamit na eksklusibo sa X Premium+ Mga Subscriber, na isinasama nang direkta sa X Social Platform bilang bahagi ng pagsisikap ng Musk upang mapahusay ang mga pakikipag-ugnay sa AI-powered sa loob ng ekosistema. hefq31ganq”> https://t.co/hefq31ganq “>-xai (@xai) Pebrero 18, 2025

grook Ang 3 ay itinayo sa arkitektura ng pagmamay-ari ng Xai at tumatakbo sa Colosus Supercomputer, na ang Musk ay kasalukuyang sumisiksik hanggang sa isang milyong nvidia gpus./p>

Gayunpaman, ang mga maagang pagsusuri ay nagpapakita na habang ang Grok 3 ay napabuti sa ilang mga lugar, nakikipagpunyagi pa rin ito sa mga isyu ng kawastuhan sa malalim na paghahanap, limitadong mga kakayahan sa pagpapatawa, at mga pagkabigo sa pangangatuwiran sa ilang mga kumplikadong gawain sa paglutas ng problema. Dumating din ang paglabas sa gitna ng patuloy na ligal na pagtatalo ng Musk sa OpenAI, karagdagang pagpapatindi ng kumpetisyon sa puwang ng AI. P> Sa mga bagong pag-update nito, ang Grok 3 ay nagtatanghal ng sarili bilang isang katunggali sa nangungunang mga modelo ng AI tulad ng GPT-4O ng OpenAi, ang Gemini 2.0 ng Google, at Claude ng Anthropic. Ayon sa mga resulta ng pagsubok na ipinakita ng XAI, ang Grok 3 ay nagpapalabas ng mga katunggali nito sa mga pangunahing benchmark ng AI, na nagpapakita ng malakas na kakayahan sa matematika, agham, at mga gawain sa pag-cod.

Sa Science (GPQA), pinamunuan ito ng 75, outperforming Gemini 2 Pro, Claude 3.5, at Deepseek-V3, na lahat ay nagmarka ng 65, habang ang GPT-4O ay nahuli sa 50. Ang pagsubok sa coding (LCB OCT-PEB) ay nakakita rin ng GROK 3 Nangunguna sa 57, na rin sa itaas ng GPT-4O (34) at iba pang mga karibal. Ang mga resulta na ito ay nagmumungkahi na ang pinakabagong modelo ng Xai ay nangunguna sa nakabalangkas na paglutas ng problema at teknikal na pangangatuwiran, kahit na ang pagganap ng tunay na mundo ay depende sa karagdagang independiyenteng pagsusuri.//t.co/fk1eotsvfm”>pic.twitter.com/fk1eotsvfm =twsrc%5etfw”> Pebrero 18, 2025

Grok 3 sa mode ng pag-iisip, ayon sa kanilang panloob na pagsubok. t.co/vfevorhdy0″>pic.twitter.com/vfevorhdy0 %5etfw”> Pebrero 18, 2025

Ang pindutan ng”Think”nito, na nagpapahintulot sa mga gumagamit na humiling ng isang mas detalyado at analytical na tugon sa pamamagitan ng pagbibigay ng karagdagang oras ng pagproseso ng AI. Ang layunin ay upang mapagbuti ang katumpakan ng pangangatuwiran at mapahusay ang kakayahan ng modelo upang harapin ang mga kumplikadong gawain. Batay sa kumplikadong pag-iisip ng

Pinapayagan ng tool ang Grok 3 na hilahin at synthesize ang real-time na impormasyon, na ginagawa itong isang katunggali sa parehong malalim na mga produkto ng pananaliksik at pagkalito AI, na naglunsad din ng sarili nitong malalim na pagpapatupad ng pananaliksik.

Andrej Karpathy, isang dating Tesla Ang direktor ng AI at maagang tester ng Grok 3 na nakakuha ng maagang pag-access, natagpuan na sa mode na’isipin’, matagumpay na tinantya ng modelo ang pagsasanay flops Kinakailangan para sa GPT-2 ng OpenAi, isang gawain na kahit na ang pinakamalakas na modelo ng pag-iisip ng OpenAi ay nabigo ang O1-Pro. Nabanggit ni Karpathy,”Ang Grok 3 na may pag-iisip ay malulutas ito, habang ang O1 Pro (GPT Thinking Model) Ang mga isyu ay inilalagay ito sa malalim na pananaliksik at pagkalugi ng AI. Pinapayagan ito ng Bagong Deep Search mode na tumugma sa OpenAi’s O1-Pro sa ilang mga gawain na mabibigat na lohika. Gayunpaman, nakikipaglaban pa rin ito sa spatial na pangangatuwiran, tulad ng ipinakita ng nabigo nitong pagsubok ng henerasyon ng tic-tae board. Inilalagay ito sa likod ng GPT-4O, na nabanggit para sa mga advanced na kakayahan sa lohika.

Ang pagkamalikhain ay nananatiling isa pang mahina na punto. Malawakang pinuri si Claude dahil sa natural at nakakaakit na istilo ng pagsulat, habang ang Grok 3 ay gumagawa pa rin ng mga tugon na nakakaramdam ng formula./en.wikipedia.org/wiki/catan”>Settler ng catan board setup , isang hamon na pakikibaka ng maraming mga modelo ng AI. Gayunpaman, kapag hiniling na makabuo ng mga nakakalito na Tic-Tac-Toe boards, nabigo ang modelo, na gumagawa ng mga nonsensical layout. Napansin ni Karpathy,”Nalutas nito ang ilang mga tic tac toe board na ibinigay ko ito ng isang medyo maganda/malinis na kadena ng pag-iisip… ngunit nabigo sa pagbuo ng mga nakakalito.”3 Mas maaga ngayon, na ginagawa ko sa palagay ko ang isa sa mga unang ilang maaaring magpatakbo ng isang mabilis na tseke ng vibe.”Button) at gumawa ng mahusay sa labas ng kahon sa aking settler ng Catan… pic.twitter.com/qiruan1ifd

-Andrej karpathy. At ang mga gawain na batay sa matematika, ang Grok 3 ay mayroon pa ring mga kapansin-pansin na mga kahinaan. Ipinapahiwatig nito na si Xai ay hindi pa mapahusay ang mga kakayahan ng malikhaing at pag-uusap ng chatbot. Ang paglabas ay darating habang ang Musk ay nananatiling naka-lock sa isang ligal na labanan sa OpenAi. Si Musk, na co-itinatag ni OpenAi noong 2015 bago umalis, ay inakusahan ang kumpanya na iwanan ang hindi pangkalakal na misyon na pabor sa mga pakikipagsosyo sa korporasyon, lalo na ang pagpapalalim nito sa Microsoft. Openai, na tinanggihan ng kanilang lupon. Sa kanyang demanda laban sa kumpanya ay pinagtutuunan niya na nagbago ito sa isang”closed-source AI enterprise”na nakatuon sa pag-maximize ng kita sa halip na pagsulong ng artipisyal na katalinuhan para sa kapakinabangan ng sangkatauhan. Itinanggi ni Openai ang mga habol na ito, na nagsasabi na nananatiling nakatuon sa ligtas at etikal na pag-unlad ng AI Ang imprastraktura na hiwalay mula sa Microsoft at Google ay nagpapirma din ng isang madiskarteng paglipat patungo sa kalayaan ng AI. Libre at naka-tier na mga plano sa subscription, ang Grok 3 ay nananatili sa likod ng isang paywall, na nangangailangan ng mga gumagamit na mag-subscribe sa pinakamataas na premium na tier sa x upang ma-access ang mga tampok nito. sa isang mas advanced na variant na tinatawag na SuperGrok. Habang ang mga detalye ay nananatiling mahirap, ang Musk ay nagpahiwatig na ang Supergrok ay makukuha kahit na mas makalkula ang kapangyarihan mula sa colossus supercomputer, na potensyal na nag-aalok ng mas malakas na mga kakayahan sa pangangatuwiran at pinahusay na mga kakayahan ng multimodal.-Tier models, target ang mga mananaliksik, developer, at mga negosyo na nangangailangan ng mas sopistikadong pagganap ng AI. Gayunpaman, walang opisyal na petsa ng paglulunsad o mga detalye ng pagpepresyo para sa SuperGrok na inihayag pa. Papayagan nito ang modelo na iproseso hindi lamang ang teksto kundi pati na rin ang mga imahe, video, at real-time na audio, na katulad ng GPT-4O ng Openai. Upang makita ang mga pagpapabuti sa pangangatuwiran, pagkamalikhain, at mga kakayahan sa real-time na pananaliksik. Gayunpaman, kailangang tugunan ng kumpanya ang mga isyu sa pagiging maaasahan ng malalim na paghahanap at mapahusay ang kalidad ng pakikipag-ugnay sa chatbot upang tunay na magkumpitensya sa nangungunang mga modelo ng AI ng industriya.

Ang Elon Musk’s Xai ay naglulunsad ng Grok 3, Dethroning Openai sa Key AI Benchmark

Published by All Things Windows on February 18, 2025

IT Info

Ang X ay naghahanap ng $ 44 bilyong pondo sa gitna ng lumalagong mga pakikibaka sa pananalapi at mga ambisyon ng pagpapalawak

IT Info

ASUS Prime Geforce RTX 5070 Ti Review: Worth upgrade to?

IT Info

Paano mapaputi ang isang panlabas na IP address sa Fortigate Firewall.

Ang Elon Musk’s Xai ay naglulunsad ng Grok 3, Dethroning Openai sa Key AI Benchmark

Published by All Things Windows on February 18, 2025

Related Posts

IT Info

Ang X ay naghahanap ng $ 44 bilyong pondo sa gitna ng lumalagong mga pakikibaka sa pananalapi at mga ambisyon ng pagpapalawak

IT Info

ASUS Prime Geforce RTX 5070 Ti Review: Worth upgrade to?

IT Info

Paano mapaputi ang isang panlabas na IP address sa Fortigate Firewall.