A OpenAI equipou o modo de voz avançado do ChatGPT com recursos de visão, permitindo aos usuários compartilhar vídeos e telas ao vivo para análise e assistência em tempo real.
Isso marca uma grande expansão da funcionalidade do ChatGPT, transformando-o em um assistente de IA visualmente consciente, capaz de interagir com os mundos físico e digital.
Anunciado como parte dos “12 Dias de OpenAI”, a atualização aprimora a capacidade do ChatGPT de auxiliar em tarefas do mundo real, mantendo sua inteligência conversacional.
IA visual em ação: Como o ChatGPT processa vídeos e telas
As novas habilidades visuais do ChatGPT permitem que os usuários envolvam a IA apontando as câmeras de seus smartphones em objetos ou compartilhando as telas de seus dispositivos. O recurso abre uma ampla gama de aplicações, desde a explicação de configurações complexas na tela até a identificação de objetos físicos no ambiente do usuário.
Durante uma demonstração ao vivo, a OpenAI apresentou o guia de IA. um usuário durante o processo de preparação do café. O sistema identificou ferramentas essenciais, como um filtro de café e uma cafeteira, oferecendo instruções claras e passo a passo.
Outro exemplo envolveu a análise do ChatGPT de uma equação matemática exibida em um computador. tela e explicando a solução em detalhes. A OpenAI explicou que o recurso conecta a interação por voz com a capacidade de interpretar entradas visuais para assistência em tempo real.
Compartilhe a tela ao usar o Advanced Voice para obter feedback instantâneo sobre o que você está vendo. pic.twitter.com/d4Xm36dwOX
— OpenAI (@OpenAI) 12 de dezembro, 2024
Apesar de suas capacidades, a OpenAI reconheceu limitações na iteração atual do sistema. A IA ocasionalmente gera respostas incorretas – chamadas de “alucinações” – ao interpretar dados visuais complexos. Embora isso continue sendo um desafio, a OpenAI observou que melhorias iterativas estão em andamento para aumentar a precisão e a confiabilidade.
A implementação destas melhorias Os recursos de visão começam imediatamente para usuários ChatGPT Plus, Pro e Team, enquanto os assinantes Enterprise e Education terão acesso a partir de janeiro de 2025.
No entanto, usuários na União Europeia e em países selecionados, como Suíça, Islândia e Noruega enfrentam atrasos devido a ajustes regulatórios e de conformidade. Para ativar o recurso, os usuários devem acessar o Modo de voz avançado no aplicativo ChatGPT e selecionar as opções de vídeo ou compartilhamento de tela para ativar a assistência visual.
Relacionado. : Google lança Gemini 2.0, Flash 2.0 com melhor raciocínio e agentes de IA
Atualizações anteriores: melhorias no Canvas com integração com Python
Em Terça-feira, a OpenAI lançou totalmente o Canvas, um espaço de trabalho de edição colaborativa que oferece ferramentas avançadas para refinamento de texto e código. Lançado inicialmente em versão beta em outubro de 2024, o Canvas substitui a interface padrão do ChatGPT por um design de tela dividida, permitindo que os usuários trabalhem em texto ou código enquanto se envolvem em trocas de conversação com a IA.
A adição da execução Python é um recurso de destaque do Canvas, permitindo que os desenvolvedores escrevam, testem e depurem scripts diretamente na plataforma. OpenAI demonstrou sua utilidade durante um evento ao vivo usando Python para gerar e refinar visualizações de dados. A OpenAI descreveu o recurso como “reduzindo o atrito entre a geração de ideias e a implementação”.
Na segunda-feira, a OpenAI lançou oficialmente o Sora, sua ferramenta avançada de IA para gerar vídeos a partir de prompts de texto, sinalizando uma nova era para IA criativa. Integrado em contas ChatGPT pagas, Sora permite aos usuários animar imagens estáticas, ampliar vídeos existentes e mesclar cenas em narrativas coesas.
Na sexta-feira passada, a OpenAI revelou o ChatGPT Pro, um novo nível de assinatura premium com preço de US$ 200. por mês, destinado a profissionais e empresas que buscam recursos avançados de IA para fluxos de trabalho de alta demanda.
O novo nível ChatGPT Pro oferece recursos exclusivos, incluindo acesso ilimitado a modelos avançados de IA, como GPT-4o, o1 e o1-mini, bem como a versão completa do modelo de raciocínio o1, anteriormente codinome “Strawberry”.
Contexto Competitivo: o movimento estratégico da OpenAI na IA Race
A adição de recursos de visão e funcionalidade expandida no Canvas ressalta os esforços da OpenAI para manter uma posição de liderança no cenário cada vez mais competitivo de IA.
O Google está desenvolvendo seu Projeto Astra, um assistente de IA capaz de processar entradas de vídeo ao vivo, que está atualmente em testes limitados com usuários selecionados. Enquanto isso, a Meta está refinando suas próprias tecnologias de IA visual, destacando o foco de toda a indústria na integração da visão em plataformas de IA conversacional.
Implicações reais da IA visual
A capacidade do ChatGPT de processar vídeo ao vivo e telas compartilhadas estende sua utilidade a vários domínios. Para os consumidores, o recurso simplifica tarefas como solucionar problemas do dispositivo, oferecer explicações visuais sobre configurações na tela ou auxiliar em projetos práticos em casa.
Na educação, o ChatGPT pode apoiar o aprendizado remoto interpretando visualmente problemas ou materiais compartilhados pelos alunos. Para profissionais, especialmente aqueles das áreas de design, engenharia ou técnica, a capacidade do ChatGPT de analisar entradas visuais oferece uma nova camada de funcionalidade, simplificando fluxos de trabalho e aumentando a eficiência.
As implicações mais amplas desta atualização refletem uma demanda crescente para sistemas de IA que possam interagir perfeitamente com ambientes digitais e físicos. À medida que tecnologias de IA como o ChatGPT evoluem, sua capacidade de compreender e responder ao contexto visual se tornará cada vez mais central para sua adoção na vida cotidiana.
A atualização da visão da OpenAI para ChatGPT e suas melhorias no espaço de trabalho Canvas sinalizam um salto significativo avançar nas capacidades da IA conversacional. Ao integrar ferramentas de voz, visão e codificação, a OpenAI continua a expandir as aplicações práticas do ChatGPT para usuários em ambientes pessoais, educacionais e profissionais.