O CEO da Alphabet, Sundar Pichai, anunciou que o modelo Gemini 1.5 Pro do Google contará com uma janela de contexto expandida de 2 milhões de tokens , dobrando sua capacidade anterior. Esta atualização, revelada durante a conferência de desenvolvedores Google I/O 2024, tem como objetivo melhorar o desempenho do modelo de linguagem grande (LLM) do Google.
Análise e compreensão de dados aprimoradas
Espera-se que a expansão da janela de contexto de 1 milhão para 2 milhões de tokens melhore a capacidade do modelo de analisar e compreender conjuntos maiores de dados. Os tokens, que são segmentos de palavras, desempenham um papel crucial na forma como os LLMs processam e geram a linguagem. Cada token consiste em quatro caracteres em inglês, e a capacidade aumentada permite que o modelo lide com entradas e saídas de dados mais abrangentes.
Google busca “contexto infinito”
Os tokens são essenciais para LLMs, pois dividem as palavras em unidades menores para análise e geração de respostas. A janela de contexto determina a quantidade de dados que o modelo de IA pode lembrar e utilizar, e aumentar o número de tokens nesta janela permite mais. respostas de IA detalhadas e precisas.
Pichai também mencionou uma meta futura de alcançar um “contexto infinito”, onde os LLMs possam processar e produzir uma quantidade ilimitada de dados. No entanto, esse objetivo é atualmente limitado pelo poder computacional. A pesquisa do Google alcançou até agora uma janela de contexto de 10 milhões de tokens, indicando esforços contínuos para ultrapassar esses limites.
[conteúdo incorporado]
Recursos avançados do Gemini 1.5 Pro
De acordo com o Google, o Gemini 1.5 Pro pode processar grandes quantidades de informações de uma só vez, incluindo 1 hora de vídeo, 11 horas de áudio, bases de código com mais de 30.000 linhas de código ou mais de 700.000 palavras. O modelo pode analisar, classificar e resumir perfeitamente grandes quantidades de conteúdo em um determinado prompt, como as transcrições de 402 páginas da missão da Apollo 11 à Lua.
O Google também afirma que o modelo pode ter um desempenho excelente. tarefas sofisticadas de compreensão e raciocínio para diferentes modalidades, incluindo vídeo, e pode analisar com precisão vários pontos da trama e eventos em um filme mudo de Buster Keaton de 44 minutos. Além disso, o Gemini 1.5 Pro pode realizar tarefas de resolução de problemas mais relevantes em blocos de código mais longos, como raciocinar entre exemplos, sugerir modificações úteis e explicar como diferentes partes do código funcionam.
O Gemini 1.5 Pro tem também melhorou as habilidades de “aprendizagem no contexto”, o que significa que ele pode aprender uma nova habilidade a partir de informações fornecidas em um prompt longo, sem precisar de ajustes adicionais.
[conteúdo incorporado]
Desempenho e avaliação
O Gemini 1.5 Pro supera o 1.0 Pro em 87% dos benchmarks usados para desenvolver grandes modelos de linguagem (LLMs) e tem um desempenho amplamente semelhante ao 1.0 Ultra nos mesmos benchmarks. Na avaliação do Needle In A Haystack (NIAH), o 1.5 Pro encontrou o texto incorporado 99% das vezes em blocos de dados de até 1 milhão de tokens.
O Google afirma que conduziu extensas ações de ética e segurança. testes do Gemini 1.5 Pro, incluindo avaliações em áreas como segurança de conteúdo e danos representacionais.
Visualização privada e acesso do desenvolvedor
A partir de agora, um grupo limitado dos desenvolvedores e clientes corporativos podem experimentar o Gemini 1.5 Pro com uma janela de contexto de até 1 milhão de tokens via AI Studio e Vertex AI em visualização privada. Essa implementação em fases permite que os desenvolvedores testem e forneçam feedback sobre o modelo aprimorado antes que ele se torne amplamente acessível.