O Google empurrou seu modelo Gemini 2.5 Flash AI para a visualização pública ontem, tornando-o acessível através de vários canais: o aplicativo Gemini voltado para o consumidor e plataformas de desenvolvedor, incluindo a API Gemini via Vertex ai . href=”https://blog.google/products/gemini/gemini-2-5-flash-preview/” target=”_blank”>Google’s announcement as its first “fully hybrid reasoning model,”2.5 Flash uniquely offers developers explicit controls over the AI’s “thinking”process, aiming to provide a flexible tool balancing performance, cost, and latency for high-volume tarefas. O Google posiciona sua proporção de desempenho/custo como colocá-la na “Pareto Frontier”, sugerindo um equilíbrio ideal para certas cargas de trabalho. surgiu experimentalmente em dezembro de 2024 e, nunca se formou nessa fase.

Esta iteração 2.5 é descrita como oferecendo capacidade de raciocínio substancialmente melhorada em comparação com a geração de flash 2.0, enquanto foi projetada para ser mais rápida e mais barata que o Gemini 2.5 Pro anunciado em março. A versão do aplicativo de consumo atualmente suporta recursos como a tela do Google para o refinamento de código e texto, embora um Google indique que o suporte profundo da pesquisa seguirá posteriormente. href=”https://developers.googleblog.com/en/start-building-with-gemini-25-flash/”target=”_ Blank”> gemini api . Os desenvolvedores podem alternar o processo de”pensamento”totalmente desligado para obter velocidade máxima ou ativá-lo para consultas complexas. Mais granularidade vem via ajustável “Orçamentos de pensamento” essencialmente o mecanismo de tumores computacionais utilizados para que a busca seja de uma consulta. tarefas analíticas. Esse nível de controle permite um gerenciamento preciso da troca entre qualidade de resposta, latência e custo operacional. A produção custa US $ 0,60 por milhão de tokens com o pensamento desativado, subindo para US $ 3,50 por milhão de tokens quando o raciocínio estiver ativo. O Google posiciona essa estrutura de custos que não cobriam de forma competitiva em modelos como o O4-Mini do Openai, embora o O4-mini demonstre benchmarks de desempenho superior a um preço mais alto. href=”https://developers.googleblog.com/en/start-building-with-gemini-25-flash/”target=”_ Blank”> Blog de desenvolvedor do Google .

fonte: Google

O flash de posicionamento na família Gemini e sua evolução

Gemini 2.5 Flash foi discutido pela primeira vez publicamente em 9 de abril, introduzido como um modelo distinto dos complexos recursos de raciocínio do 2.5 Pro. Apesar do foco do Flash na velocidade, ele mantém a grande janela de contexto de 1 milhão de token característica da linha Pro, permitindo que ele lide com entradas extensas. Essa iteração anterior teve como objetivo fornecer transparência de raciocínio, em parte como uma resposta aos modelos O1 da OpenAI. Em relação a esse experimento, Jeff Dean, o principal cientista do Google Deepmind, declarou em x,”construído na velocidade e no desempenho do 2.0 Flash, esse modelo é treinado para usar pensamentos para fortalecer seu raciocínio. E vemos resultados promissores quando aumentamos o cálculo do tempo de inferência.”

queremos ver o pensamento flash de Gemini 2.0 na ação? Confira esta demonstração em que o modelo resolve um problema de física e explica seu raciocínio. pic.twitter.com/nl0hyj7zfs

-Jeff Dean (@jeffdean) 19 de dezembro, 2024

while Representa a evolução funcional dessa idéia. visa alavancar essa fase de visualização para refinar o”pensamento dinâmico”do modelo com base no feedback do desenvolvedor, particularmente em relação às instâncias”onde ele pensa ou pensa demais”, como Doshi mencionou. A distinção permanece de que os desenvolvedores obtêm controles granulares da API, enquanto o aplicativo atual do consumidor oferece flash como uma única escolha experimental, provavelmente com o raciocínio ativado por padrão. Essa falta de transparência continua um padrão observado com alguns lançamentos recentes de IA, atraindo escrutínio, especialmente para modelos que estão sendo amplamente disponíveis. Enquanto o Google planeja desenvolvimentos futuros, como a disponibilidade local e alavancar novas TPUs, a etapa imediata envolve a coleta de dados do mundo real para orientar 2.5 Flash para uma versão geral em potencial.

Categories: IT Info