A OpenAI lançou oficialmente o GPT-4 Turbo com Vision ( GPT-4V), marcando um avanço em seu modelo de linguagem grande de inteligência artificial. Esta nova versão aprimora os recursos do GPT-4 Turbo ao integrar o Vision, permitindo assim o processamento de dados visuais junto com texto. Esse desenvolvimento pode revolucionar a forma como os desenvolvedores trabalham com IA, especialmente em aplicativos que exigem a análise de imagens.
Recursos aprimorados para desenvolvedores
O GPT-4V apresenta vários recursos importantes recursos projetados para agilizar o processo de desenvolvimento. Notavelmente, ele suporta modo JSON e chamada de função, facilitando a integração com bases de código existentes. O modelo mantém os impressionantes 128 mil tokens na janela de contexto de seu antecessor, GPT-4 Turbo, permitindo amplo processamento de dados em uma única solicitação. Os desenvolvedores agora podem inserir imagens por meio de links diretos ou passando imagens codificadas em base64, expandindo a utilidade do modelo em diversas aplicações.
Um dos aspectos de destaque do GPT-4V é sua capacidade de interpretar e analisar imagens. Embora possa identificar objetos dentro de uma imagem, é importante observar algumas limitações. Por exemplo, o modelo pode ter dificuldade em determinar a localização precisa ou a cor de itens específicos no campo visual. Essa limitação ressalta o estado atual da compreensão da IA sobre contextos visuais complexos, um desafio que continua a ser uma área de pesquisa e desenvolvimento ativos.
GPT-4 Turbo com Vision agora está disponível na API. As solicitações de visão agora também podem usar o modo JSON e chamadas de função.https://t.co/cbvJjij3uL
Abaixo estão algumas ótimas maneiras pelas quais os desenvolvedores estão construindo com visão. Deixe a sua resposta 🧵
— OpenAI Developers (@OpenAIDevs) 9 de abril de 2024
Aplicações práticas e limitações
A introdução do GPT-4V abre uma infinidade de possibilidades para desenvolvedores. Desde a criação de aplicações mais interativas e responsivas até o aprimoramento de ferramentas de análise de dados, os casos de uso potenciais são vastos. No entanto, a OpenAI alertou contra o uso do GPT-4V para processamento de imagens médicas, como tomografias computadorizadas, indicando que o modelo ainda não é adequado para tais tarefas especializadas.
Além disso, a OpenAI fornece orientação sobre como gerenciar custos de token associados. com processamento de imagens. Por exemplo, uma análise detalhada de uma imagem quadrada de 1024 x 1024 consumiria aproximadamente 765 tokens, destacando a necessidade dos desenvolvedores considerarem as implicações computacionais e financeiras de seus projetos.
Google estreia imagem 2
Expansão dos recursos de imagem do GPT-4 Turbo pela OpenAI, o Google está lançando seu modelo de imagem Imagen 2 AI. Essa ferramenta agora está disponível na plataforma de desenvolvedores Vertex AI do Google, marcando um avanço significativo no domínio da criação de conteúdo baseado em IA. Entre as características notáveis do Imagen 2 estão o inpainting e o outpainting, que permitem respectivamente a remoção de partes indesejadas de uma imagem e a adição de novos elementos ou expansão das bordas de uma imagem. No entanto, o destaque da atualização é o recurso “text-to-live images”, que permite a criação de videoclipes a partir de prompts de texto.