O Google anunciou o Gemini 2.0 Flash Thinking, um modelo de raciocínio experimental projetado para resolver problemas complexos usando vários tipos de dados. O novo modelo permite que os usuários vejam as etapas necessárias para chegar a uma resposta, oferecendo insights sobre seu processo analítico.

Gemini 2.0 Flash Thinking é uma resposta direta aos modelos de raciocínio o1 da OpenAI, com o Google enfatizando a transparência e velocidade como características principais de seu design.

Nosso modelo mais inteligente até agora:) https://t.co/xIz3w5dtGJ

— Sundar Pichai (@sundarpichai) 19 de dezembro de 2024

Processo de raciocínio Mostrado passo a passo

Uma característica importante do Gemini 2.0 Flash Thinking é seu foco em tornar seu processo de raciocínio compreensível para os usuários. Isso contrasta com alguns sistemas avançados de IA, onde o processo de tomada de decisão muitas vezes não é claro.

Ao contrário dos modelos de raciocínio o1 da OpenAI, o novo modelo do Google oferece uma maneira para os usuários seguirem suas etapas cognitivas por meio de uma interface de usuário. De acordo com a documentação oficial do Google, o “Modo de Pensamento” neste modelo fornece capacidades de raciocínio mais fortes em comparação com o modelo Flash Gemini 2.0 padrão.

Esse recurso aborda a preocupação da “caixa preta” frequentemente associada à IA, alinhando o modelo com a ideia de tornar suas operações mais compreensíveis. As observações iniciais sugerem que o modelo pode resolver de forma eficaz e rápida problemas que têm sido difíceis para outros sistemas de IA.

Processamento multimodal integrado

Outro recurso significativo do Gemini 2.0 Flash Thinking é sua capacidade de processar entradas de imagem junto com texto. Embora o o1 da OpenAI inicialmente funcionasse apenas com texto antes de adicionar recursos de imagem posteriormente, o modelo do Google foi projetado para lidar com vários tipos de dados desde o início.

Esse recurso integrado permite que o modelo resolva situações complexas que exigem a análise de diferentes tipos de informação. Por exemplo, o modelo tem sido capaz de resolver quebra-cabeças que exigem o uso de texto e imagens, demonstrando sua capacidade de trabalhar com diferentes formatos de dados. Atualmente, os desenvolvedores podem acessar esses recursos por meio do Google AI Studio e do Vertex AI .

Resultados de benchmark

Primeiros resultados da tabela de classificação de benchmark do Chatbot Arena para os testados O modelo Gemini-2.0-Flash-Thinking-exp-1219 apresenta um desempenho geralmente superior quando comparado aos modelos OpenAi o1 listados (o1-preview e o1-mini).

Gemini-2.0-Flash-Pensando nº 1 em todas as categorias! pic.twitter.com/mRctNA31B9

— lmarena.ai (anteriormente lmsys.org) (@lmarena_ai) 19 de dezembro de 2024

Contra o1-preview, Gêmeos-2.0-Flash-Thinking supera significativamente em desempenho geral, geral com controle de estilo, escrita criativa, seguimento de instruções e consulta mais longa. Eles alcançam a mesma classificação em prompts rígidos, prompts rígidos com controle de estilo, codificação e matemática. Contra o o1-mini, Gemini-2.0-Flash-Thinking supera-o significativamente em desempenho geral, geral com controle de estilo, prompts rígidos, prompts rígidos com controle de estilo, escrita criativa, seguimento de instruções e mais Consulta. Eles alcançam a mesma classificação em codificação e matemática.

É importante observar que esta comparação inclui apenas as versões “prévia” e “mini” dos modelos o1. As versões estáveis ​​do o1 e do o1 Pro estão ausentes desta visão geral, o que significa que ela não reflete uma comparação com as versões estáveis ​​potencialmente mais capazes da família de modelos o1.

No entanto, com base no dados disponíveis, Gemini-2.0-Flash-Thinking-exp-1219 demonstra um perfil de desempenho consideravelmente mais forte em comparação com os modelos o1-preview e o1-mini.

Detalhes de Gemini 2.0 Flash Thinking

O Gemini 2.0 Flash Thinking está atualmente disponível como um experimento no Google AI Studio. Ele é construído com base no modelo Gemini 2.0 Flash lançado recentemente.

Jeff Dean, cientista-chefe do Google DeepMind, explicou que o modelo é “treinado para usar pensamentos para fortalecer seu raciocínio”. Ele também observou “resultados promissores quando aumentamos o cálculo do tempo de inferência”, referindo-se à quantidade de recursos de computação usados ​​no processamento de consultas.

Apresentamos o Gemini 2.0 Flash Thinking, um modelo experimental que mostra explicitamente seus pensamentos.

Construído na velocidade do Flash 2.0 e desempenho, este modelo é treinado para usar pensamentos para fortalecer seu raciocínio.

E vemos resultados promissores quando aumentamos o tempo de inferência…

— Jeff Dean (@JeffDean) 19 de dezembro, 2024

Dean também compartilhou uma demonstração onde o modelo resolveu um problema físico complexo.

Quer ver o Gemini 2.0 Flash Thinking em ação? Confira esta demonstração onde o modelo resolve um problema de física e explica seu raciocínio. pic.twitter.com/Nl0hYj7ZFS

— Jeff Dean (@JeffDean) Dezembro 19, 2024

O modelo tem um limite de 32.000 tokens para entrada e pode gerar saídas de até 8.000 tokens de comprimento. A documentação do Google afirma que “o Modo de Pensamento é capaz de capacidades de raciocínio mais fortes em suas respostas do que o modelo básico Gemini 2.0 Flash”, enfatizando suas habilidades analíticas aprimoradas.

Atualmente, o o modelo é oferecido gratuitamente no Google AI Studio, mas a documentação indica que algumas integrações, como a funcionalidade da Pesquisa Google, ainda não estão disponíveis. O modelo é especialmente projetado para tarefas de “compreensão multimodal, raciocínio” e “codificação”.

Competição com o Premium da OpenAI. Oferecendo

A introdução do Gemini 2.0 Flash Thinking ocorre logo após a OpenAI lançar o ChatGPT Pro, a versão completa do modelo de raciocínio o1, em 5 de dezembro, destacando a crescente concorrência no campo da IA ​​avançada

O lançamento do Gemini 2.0 Flash Thinking pelo Google ocorre quando a OpenAI estabeleceu recentemente suas ofertas premium para recursos avançados de raciocínio. Enquanto o modo o1 pro do OpenAI enfatiza o desempenho por meio de recursos computacionais aumentados, o Gemini 2.0 Flash Thinking do Google enfatiza a transparência de seu processo de raciocínio.

Essa diferença destaca as estratégias contrastantes usadas no desenvolvimento da IA, com algumas focadas no poder computacional e outras priorizando a compreensão e a confiança do usuário.

Categories: IT Info