La empresa de inteligencia artificial de Elon Musk, xAI, está avanzando a pasos agigantados en la mejora de su chatbot Grok con capacidades multimodales. Según los últimos documentos para desarrolladores, los usuarios pronto podrán cargar imágenes en Grok y recibir respuestas basadas en texto..
Los documentos del desarrollador incluyen un script de Python de muestra que describe el proceso de integración. Este script demuestra cómo los desarrolladores pueden utilizar el kit de desarrollo de software (SDK) xAI para procesar entradas de texto e imágenes. El script detalla los pasos para leer un archivo de imagen, configurar un mensaje de texto y generar una respuesta utilizando el SDK xAI, lo que indica un avance hacia métodos de interacción más sofisticados.
Evolución y versión anterior
Grok estuvo disponible por primera vez en noviembre de 2023 y está disponible para los suscriptores del servicio X Premium Plus. La última versión, Grok 1.5, se lanzó en marzo y presenta capacidades de razonamiento mejoradas. El modelo se entrena con una amplia gama de datos de texto de Internet hasta el tercer trimestre de 2023, complementados con conjuntos de datos seleccionados por revisores humanos. En particular, si bien Grok-1 no fue entrenado con datos de X (anteriormente Twitter), sí tiene acceso en tiempo real a publicaciones públicas en la plataforma.
Posición competitiva y desarrollos futuros
Fundada por Elon Musk en marzo 2023, xAI es un actor relativamente nuevo en el sector de la IA y compite con entidades establecidas como ChatGPT de OpenAI. A pesar de su condición de recién llegado, xAI afirma que Grok 1.5 está reduciendo la brecha de rendimiento con GPT-4 de OpenAI en varios puntos de referencia, incluidos los problemas de competencia académica. Sin embargo, es importante tener en cuenta que los puntos de referencia para modelos de lenguaje grandes a menudo se enfrentan a un escrutinio por incluir potencialmente datos de prueba en sus conjuntos de entrenamiento, lo que puede afectar los resultados de rendimiento.
Modelos multimodales en varios dominios
Una publicación de blog del mes pasado indicó que Grok-1.5V ofrecerá “modelos multimodales en varios dominios”. La reciente actualización de los documentos del desarrollador sugiere un progreso hacia el lanzamiento de un nuevo modelo. Este modelo se entrena con una variedad de datos de texto de fuentes de Internet disponibles públicamente hasta el tercer trimestre de 2023 y conjuntos de datos revisados por expertos humanos. Grok también cuenta con conocimiento del mundo en tiempo real, incluidas publicaciones sobre X.
El desarrollo de chatbots conversacionales multimodales se considera un avance significativo en la tecnología de inteligencia artificial con anuncios recientes de Google I/O y el lanzamiento de OpenAI. GPT-4o, la anterior falta de capacidades multimodales de Grok lo había colocado en desventaja competitiva. Las actualizaciones en curso tienen como objetivo cerrar esta brecha y mejorar la funcionalidad de Grok.