Działanie Elona Muska dotyczące sztucznej inteligencji, xAI, robi postępy w ulepszaniu chatbota Grok o możliwości multimodalne. Według najnowszych dokumentów dla programistów użytkownicy wkrótce będą mogli przesyłać obrazy do Groka i otrzymywać odpowiedzi tekstowe.

Dokumenty dla programistów zawierają przykładowy skrypt w języku Python, który opisuje proces integracji. Ten skrypt pokazuje, w jaki sposób programiści mogą używać zestawu programistycznego xAI (SDK) do przetwarzania danych wejściowych zarówno w postaci tekstu, jak i obrazu. Skrypt szczegółowo opisuje kroki potrzebne do odczytania pliku obrazu, skonfigurowania podpowiedzi tekstowej i wygenerowania odpowiedzi przy użyciu pakietu xAI SDK, co wskazuje na przejście w stronę bardziej wyrafinowanych metod interakcji.

Ewolucja i poprzednia wersja

Grok został po raz pierwszy udostępniony w listopadzie 2023 roku i jest dostępny dla abonentów usługi X Premium Plus. Najnowsza wersja, Grok 1.5, została wypuszczona w marcu i zawierała ulepszone możliwości rozumowania. Model jest szkolony na różnorodnych danych tekstowych z Internetu do trzeciego kwartału 2023 r., uzupełnionych zbiorami danych opracowanymi przez weryfikatorów. Warto zauważyć, że chociaż Grok-1 nie był szkolony na danych z X (dawniej Twittera), ma dostęp w czasie rzeczywistym do publicznych postów na platformie.

Pozycja konkurencyjna i przyszły rozwój

Założona przez Elona Muska w marcu 2023, xAI jest stosunkowo nowym graczem w sektorze AI, konkurującym z uznanymi podmiotami, takimi jak ChatGPT OpenAI. Pomimo statusu nowicjusza, xAI twierdzi, że Grok 1.5 zmniejsza różnicę w wydajności z GPT-4 OpenAI w różnych testach porównawczych, w tym w problemach związanych z konkurencją akademicką. Należy jednak wziąć pod uwagę, że testy porównawcze dla dużych modeli językowych często poddawane są analizie pod kątem potencjalnego włączenia danych testowych do swoich zbiorów szkoleniowych, co może mieć wpływ na wyniki wydajności.

Modele multimodalne w różnych domenach

wpis na blogu z ostatniego miesiąca wskazywał, że Grok-1.5V będzie oferować „modele multimodalne w wielu domenach.” Niedawna aktualizacja dokumentów deweloperskich sugeruje postęp w kierunku wypuszczenia nowego modelu. Model ten jest trenowany na różnych danych tekstowych z publicznie dostępnych źródeł internetowych do trzeciego kwartału 2023 r. oraz zbiorów danych sprawdzonych przez ludzkich ekspertów. Grok również może pochwalić się wiedzą o świecie w czasie rzeczywistym, w tym postami w X.

Rozwój multimodalnych chatbotów konwersacyjnych jest postrzegany jako znaczący postęp w technologii sztucznej inteligencji w związku z niedawnymi ogłoszeniami Google I/O i wydaniem OpenAI GPT-4o, poprzedni brak możliwości multimodalnych Groka stawiał go w niekorzystnej sytuacji konkurencyjnej. Ciągłe aktualizacje mają na celu wypełnienie tej luki i ulepszenie funkcjonalności Groka.

Categories: IT Info