O empreendimento de inteligência artificial de Elon Musk, xAI, está fazendo progressos no aprimoramento de seu chatbot Grok com recursos multimodais. De acordo com os documentos mais recentes para desenvolvedores, em breve os usuários poderão fazer upload de imagens para o Grok e receber respostas baseadas em texto.
Os documentos do desenvolvedor incluem um exemplo de script Python que descreve o processo de integração. Este script demonstra como os desenvolvedores podem usar o kit de desenvolvimento de software (SDK) xAI para processar entradas de texto e imagem. O script detalha as etapas para ler um arquivo de imagem, configurar um prompt de texto e gerar uma resposta usando o SDK xAI, indicando uma mudança em direção a métodos de interação mais sofisticados.
Evolução e versão anterior
Grok foi disponibilizado pela primeira vez em novembro de 2023 e está acessível aos assinantes do serviço X Premium Plus. A iteração mais recente, Grok 1.5, foi lançada em março, apresentando recursos de raciocínio aprimorados. O modelo é treinado em uma ampla gama de dados de texto da Internet até o terceiro trimestre de 2023, complementados por conjuntos de dados selecionados por revisores humanos. Notavelmente, embora o Grok-1 não tenha sido treinado com dados do X (antigo Twitter), ele tem acesso em tempo real a postagens públicas na plataforma.
Posição competitiva e desenvolvimentos futuros
Fundada por Elon Musk em março 2023, xAI é um player relativamente novo no setor de IA, competindo com entidades estabelecidas como ChatGPT da OpenAI. Apesar de seu status de recém-chegado, o xAI afirma que o Grok 1.5 está diminuindo a lacuna de desempenho com o GPT-4 da OpenAI em vários benchmarks, incluindo problemas de competição acadêmica. No entanto, é importante considerar que os benchmarks para grandes modelos de linguagem muitas vezes enfrentam escrutínio por potencialmente incluir dados de teste em seus conjuntos de treinamento, o que pode afetar os resultados de desempenho.
Modelos Multimodais em Vários Domínios
Uma postagem do mês passado indicou que o Grok-1.5V oferecerá “modelos multimodais em vários domínios.”A recente atualização dos documentos do desenvolvedor sugere progresso no sentido do lançamento de um novo modelo. Este modelo é treinado em uma variedade de dados de texto de fontes da Internet disponíveis publicamente até o terceiro trimestre de 2023 e conjuntos de dados revisados por especialistas humanos. Grok também possui conhecimento do mundo em tempo real, incluindo postagens no X.
O desenvolvimento de chatbots conversacionais multimodais é visto como um avanço significativo na tecnologia de IA com anúncios recentes do Google I/O e o lançamento do OpenAI. GPT-4o, a falta anterior de capacidades multimodais da Grok a colocou em desvantagem competitiva. As atualizações contínuas visam preencher essa lacuna e aprimorar a funcionalidade do Grok.