O Google lançou oficialmente a visualização pública do Gemini Pro 1.5, seu modelo de IA generativa mais avançado até o momento, na Vertex AI, a plataforma da empresa dedicada ao desenvolvimento de IA empresarial. O anúncio foi feito na conferência Cloud Next anual do Google, em Las Vegas. O Gemini Pro 1.5, lançado inicialmente em fevereiro, é uma adição significativa à família Gemini de modelos generativos de IA do Google. Destaca-se pela sua capacidade de processar uma quantidade substancial de contexto, variando de 128.000 tokens a impressionantes 1 milhão de tokens.

Capacidades Técnicas e Aplicações

Um token representa uma parte subdividida de dados brutos, como partes de uma palavra. Por exemplo, a palavra “fantástico” pode ser dividida nos tokens “fan”, “tas” e “tic”. Em termos práticos, 1 milhão de tokens equivalem a aproximadamente 700.000 palavras ou cerca de 30.000 linhas de código. Esta capacidade é notavelmente quatro vezes maior que a do modelo carro-chefe da Anthropic, Claude 3, e oito vezes maior que o contexto máximo do GPT-4 Turbo da OpenAI. A janela de contexto de um modelo é importante porque determina o conjunto de dados inicial que o modelo analisa antes de gerar a saída. Modelos com janelas de contexto maiores podem manter a relevância do tópico em conversas ou documentos mais longos, compreender melhor o fluxo narrativo e produzir respostas contextualmente mais ricas sem precisar de tantos ajustes finos.

A ampla janela de contexto do Gemini Pro 1.5 permite uma ampla gama de aplicações, desde a análise de bibliotecas de códigos e raciocínio através de documentos extensos até a manutenção de longas conversas com chatbots. Além disso, as suas capacidades multilingues e multimodais permitem-lhe compreender e analisar conteúdos em diferentes tipos de meios de comunicação, incluindo imagens, vídeos e agora fluxos de áudio, em vários idiomas. Um milhão de tokens pode representar cerca de uma hora de vídeo ou aproximadamente 11 horas de áudio, aumentando a utilidade do modelo no processamento e transcrição de conteúdo multimídia.

Adoção antecipada e perspectivas futuras

Vários adotantes iniciais, incluindo United Wholesale Mortgage , TBS e Replit já estão aproveitando a grande janela de contexto do Gemini Pro 1.5 Pro para diversas tarefas, como subscrição de hipotecas, automatização da marcação de metadados em arquivos de mídia e geração e transformação de código. Apesar dos recursos avançados, o tempo de processamento do modelo, que varia de 20 segundos a um minuto por pesquisa, é uma área que o Google pretende otimizar ainda mais.

Categories: IT Info