L’impresa di intelligenza artificiale di Elon Musk, xAI, sta facendo passi da gigante nel potenziare il suo chatbot Grok con funzionalità multimodali. Secondo gli ultimi documenti per sviluppatori, gli utenti saranno presto in grado di caricare immagini su Grok e ricevere risposte basate su testo.

I documenti per gli sviluppatori includono uno script Python di esempio che delinea il processo di integrazione. Questo script dimostra come gli sviluppatori possono utilizzare il kit di sviluppo software (SDK) xAI per elaborare input sia di testo che di immagini. Lo script descrive dettagliatamente i passaggi per leggere un file immagine, impostare un messaggio di testo e generare una risposta utilizzando xAI SDK, indicando un passaggio verso metodi di interazione più sofisticati.

Evoluzione e versione precedente

Grok è stato reso disponibile per la prima volta nel novembre 2023 ed è accessibile agli abbonati del servizio X Premium Plus. L’ultima iterazione, Grok 1.5, è stata rilasciata a marzo, con capacità di ragionamento migliorate. Il modello viene addestrato su una vasta gamma di dati di testo provenienti da Internet fino al terzo trimestre del 2023, integrati da set di dati curati da revisori umani. In particolare, sebbene Grok-1 non sia stato addestrato sui dati di X (ex Twitter), ha accesso in tempo reale ai post pubblici sulla piattaforma.

Posizione competitiva e sviluppi futuri

Fondata da Elon Musk a marzo Nel 2023, xAI è un attore relativamente nuovo nel settore dell’intelligenza artificiale, in competizione con entità consolidate come ChatGPT di OpenAI. Nonostante il suo status di nuovo arrivato, xAI afferma che Grok 1.5 sta riducendo il divario prestazionale con GPT-4 di OpenAI su vari benchmark, compresi i problemi di concorrenza accademica. Tuttavia, è importante considerare che i benchmark per modelli linguistici di grandi dimensioni spesso devono essere esaminati attentamente per includere potenzialmente i dati dei test nei loro set di addestramento, il che può influenzare i risultati delle prestazioni.

Modelli multimodali in vari domini

Un post sul blog del mese scorso indicava che Grok-1.5V offrirà”modelli multimodali in un certo numero di domini.”Il recente aggiornamento dei documenti degli sviluppatori suggerisce progressi verso il rilascio di un nuovo modello. Questo modello è addestrato su una varietà di dati di testo provenienti da fonti Internet disponibili al pubblico fino al terzo trimestre del 2023 e set di dati esaminati da esperti umani. Grok ha anche vanta una conoscenza del mondo in tempo reale, inclusi post su X.

Lo sviluppo di chatbot conversazionali multimodali è visto come un progresso significativo nella tecnologia AI con i recenti annunci di Google I/O e il rilascio di OpenAI GPT-4o, la precedente mancanza di capacità multimodali di Grok lo aveva posto in una posizione di svantaggio competitivo. Gli aggiornamenti in corso mirano a colmare questa lacuna e migliorare la funzionalità di Grok.

Categories: IT Info