A OpenAI lançou oficialmente o GPT-4 Turbo com Vision ( GPT-4V), marcando um avanço em seu modelo de linguagem grande de inteligência artificial. Esta nova versão aprimora os recursos do GPT-4 Turbo ao integrar o Vision, permitindo assim o processamento de dados visuais junto com texto. Esse desenvolvimento pode revolucionar a forma como os desenvolvedores trabalham com IA, especialmente em aplicativos que exigem a análise de imagens.

Recursos aprimorados para desenvolvedores

O GPT-4V apresenta vários recursos importantes recursos projetados para agilizar o processo de desenvolvimento. Notavelmente, ele suporta modo JSON e chamada de função, facilitando a integração com bases de código existentes. O modelo mantém os impressionantes 128 mil tokens na janela de contexto de seu antecessor, GPT-4 Turbo, permitindo amplo processamento de dados em uma única solicitação. Os desenvolvedores agora podem inserir imagens por meio de links diretos ou passando imagens codificadas em base64, expandindo a utilidade do modelo em diversas aplicações.

Um dos aspectos de destaque do GPT-4V é sua capacidade de interpretar e analisar imagens. Embora possa identificar objetos dentro de uma imagem, é importante observar algumas limitações. Por exemplo, o modelo pode ter dificuldade em determinar a localização precisa ou a cor de itens específicos no campo visual. Essa limitação ressalta o estado atual da compreensão da IA ​​sobre contextos visuais complexos, um desafio que continua a ser uma área de pesquisa e desenvolvimento ativos.

GPT-4 Turbo com Vision agora está disponível na API. As solicitações de visão agora também podem usar o modo JSON e chamadas de função.https://t.co/cbvJjij3uL

Abaixo estão algumas ótimas maneiras pelas quais os desenvolvedores estão construindo com visão. Deixe a sua resposta 🧵

— OpenAI Developers (@OpenAIDevs) 9 de abril de 2024

Aplicações práticas e limitações

A introdução do GPT-4V abre uma infinidade de possibilidades para desenvolvedores. Desde a criação de aplicações mais interativas e responsivas até o aprimoramento de ferramentas de análise de dados, os casos de uso potenciais são vastos. No entanto, a OpenAI alertou contra o uso do GPT-4V para processamento de imagens médicas, como tomografias computadorizadas, indicando que o modelo ainda não é adequado para tais tarefas especializadas.

Além disso, a OpenAI fornece orientação sobre como gerenciar custos de token associados. com processamento de imagens. Por exemplo, uma análise detalhada de uma imagem quadrada de 1024 x 1024 consumiria aproximadamente 765 tokens, destacando a necessidade dos desenvolvedores considerarem as implicações computacionais e financeiras de seus projetos.

Google estreia imagem 2

Expansão dos recursos de imagem do GPT-4 Turbo pela OpenAI, o Google está lançando seu modelo de imagem Imagen 2 AI. Essa ferramenta agora está disponível na plataforma de desenvolvedores Vertex AI do Google, marcando um avanço significativo no domínio da criação de conteúdo baseado em IA. Entre as características notáveis ​​do Imagen 2 estão o inpainting e o outpainting, que permitem respectivamente a remoção de partes indesejadas de uma imagem e a adição de novos elementos ou expansão das bordas de uma imagem. No entanto, o destaque da atualização é o recurso “text-to-live images”, que permite a criação de videoclipes a partir de prompts de texto. 

Categories: IT Info