Ang artificial intelligence venture ng Elon Musk, ang xAI, ay gumagawa ng mga hakbang sa pagpapahusay sa Grok chatbot nito na may mga multimodal na kakayahan. Ayon sa pinakabagong mga dokumento ng developer, malapit nang makapag-upload ang mga user ng mga larawan sa Grok at makatanggap ng mga text-based na tugon.

Ang mga dokumento ng developer ay may kasamang sample na script ng Python na nagbabalangkas sa proseso ng pagsasama. Ipinapakita ng script na ito kung paano magagamit ng mga developer ang xAI software development kit (SDK) para iproseso ang parehong text at image input. Ang script ay nagdedetalye ng mga hakbang upang magbasa ng image file, mag-set up ng text prompt, at makabuo ng tugon gamit ang xAI SDK, na nagpapahiwatig ng hakbang patungo sa mas sopistikadong paraan ng pakikipag-ugnayan.

Ebolusyon at Nakaraang Bersyon

strong>

Unang ginawang available ang Grok noong Nobyembre 2023 at naa-access ito ng mga subscriber ng serbisyo ng X Premium Plus. Ang pinakabagong pag-ulit, ang Grok 1.5, ay inilabas noong Marso, na nagtatampok ng mga pinahusay na kakayahan sa pangangatwiran. Ang modelo ay sinanay sa iba’t ibang hanay ng data ng text mula sa internet hanggang sa ikatlong quarter ng 2023, na dinagdagan ng mga dataset na na-curate ng mga tagasuri ng tao. Kapansin-pansin, habang ang Grok-1 ay hindi sinanay sa data mula sa X (dating Twitter), mayroon itong real-time na access sa mga pampublikong post sa platform.

Competitive Position at Future Developments

Itinatag ni Elon Musk noong Marso 2023, ang xAI ay medyo bagong manlalaro sa sektor ng AI, na nakikipagkumpitensya sa mga naitatag na entity tulad ng ChatGPT ng OpenAI. Sa kabila ng katayuan ng bagong dating nito, iginiit ng xAI na pinaliit ng Grok 1.5 ang agwat sa pagganap sa GPT-4 ng OpenAI sa iba’t ibang mga benchmark, kabilang ang mga problema sa akademikong kompetisyon. Gayunpaman, mahalagang isaalang-alang na ang mga benchmark para sa malalaking modelo ng wika ay kadalasang nahaharap sa pagsisiyasat para sa potensyal na pagsasama ng data ng pagsubok sa kanilang mga set ng pagsasanay, na maaaring makaapekto sa mga resulta ng pagganap.

Mga Multimodal na Modelo sa Iba’t Ibang Domain

Isang post sa blog mula noong nakaraang buwan ang nagpahiwatig na ang Grok-1.5V ay mag-aalok ng “multimodal na mga modelo sa isang bilang ng mga domain.”Ang kamakailang pag-update sa mga dokumento ng developer ay nagmumungkahi ng pag-unlad patungo sa pagpapalabas ng isang bagong modelo. Ang modelong ito ay sinanay sa iba’t ibang text data mula sa mga pampublikong mapagkukunan ng internet hanggang Q3 2023 at mga dataset na sinuri ng mga eksperto ng tao. Grok din Ipinagmamalaki ang real-time na kaalaman sa mundo, kabilang ang mga post sa X.

Ang pagbuo ng multimodal conversational chatbots ay tinitingnan bilang isang makabuluhang pagsulong sa teknolohiya ng AI Sa mga kamakailang anunsyo mula sa Google I/O at ang paglabas ng OpenAI’s GPT-4o, ang dating kakulangan ng Grok ng mga multimodal na kakayahan ay naglagay nito sa isang mapagkumpitensyang kawalan. Ang patuloy na pag-update ay naglalayon na tulay ang puwang na ito at pahusayin ang paggana ng Grok.

Categories: IT Info