Ollama lançou uma atualização significativa para sua plataforma local de IA, introduzindo um mecanismo proprietário projetado para aprimorar o suporte a modelo multimodal. Esse desenvolvimento sinaliza uma mudança estratégica de sua dependência anterior da estrutura llama.cpp. O novo mecanismo tem como objetivo oferecer um melhor desempenho, confiabilidade e precisão para os usuários que executam modelos de IA que interpretam o texto e as imagens diretamente em seu próprio hardware, conforme detalhado no Github de Ollama Permite que cada modelo seja autônomo com sua própria camada de projeção Um princípio central do novo mecanismo de Ollama é a busca de maior precisão na inferência local, principalmente ao processar imagens grandes que podem se traduzir em um volume substancial de tokens. O sistema agora incorpora metadados adicionais durante o processamento da imagem. Também é projetado para gerenciar os dados em lote e posicional com mais precisão, pois o Ollama destaca que a divisão incorreta da imagem pode afetar negativamente a qualidade da saída. O gerenciamento da memória também vê melhorias significativas. O mecanismo apresenta cache de imagem, garantindo que, uma vez que uma imagem seja processada, ele permanece facilmente acessível para os avisos subsequentes sem ser descartada prematuramente. O Ollama também lançou otimizações de KVCache-uma técnica para acelerar a inferência do modelo de transformador ao armazenar em cache e os estados de valor. This partnership aims to refine memory estimation through accurate hardware metadata detection and involves testing Ollama against new firmware releases. Specific adaptations have been made for models like Meta’s Llama 4 Scout—a 109-billion-parameter mixture-of-experts (MoE) model where different parts of the input are processed by specialized sub-models—and Maverick, incorporating features such as chunked attention (Sequências de processamento em segmentos para salvar a memória) e incorporação rotativa 2D especializada (um método para codificar informações posicionais em transformadores). Notavelmente, o próprio projeto llama.cpp Recentemente Integrated Vision Support através de sua nova biblioteca `libmtmd`. llama.cpp documentação descreve o seu próprio suporte multimodal. Ollama e o projeto Fundamental Llama.CPP tem sido um ponto de discussão na comunidade de usuários. Em Tópico de notícias de hacker Dissecando o anúncio de Ollama, alguns participantes, que explicaram, como um dos membros do que era fundamental. Golang e Llama.CPP fizeram o deles em C ++. Ele acrescentou que o trabalho deles foi realizado em paralelo com o llama.cpp, não baseado nele, e reconheceu:”Sou realmente muito apreciado por Georgi pegar algumas coisas que entendemos em nossa implementação”. O ISWA reduz o tamanho do cache KV para 1/6.”Referenciando-se Github Issue Para um contexto adicional. A atenção da janela deslizante intercalada (ISWA) é uma técnica de eficiência para modelos de transformadores. Com seu novo mecanismo agora operacional, a Ollama está fazendo o objetivo de expandir ainda mais os recursos de sua plataforma. O roteiro da empresa inclui ambições para suportar tamanhos de contexto significativamente mais longos, permitir processos de raciocínio mais sofisticados nos modelos e introduzir chamadas de ferramentas com respostas de streaming. Esses aprimoramentos planejados visam tornar os modelos de IA localmente mais versáteis e poderosos em um espectro mais amplo de aplicações. Ao afirmar um maior controle sobre o pipeline de inferência, a Ollama pretende oferecer uma plataforma mais simplificada e confiável para desenvolvedores e usuários finais que desejam utilizar modelos avançados de IA em seus dispositivos de computação pessoal. recursos futuros e implicações mais amplas
Categories: IT Info