Olllama a lancé une mise à jour importante de sa plate-forme d’IA locale, introduisant un moteur propriétaire conçu pour améliorer le support de modèle multimodal. Ce développement signale un changement stratégique par rapport à sa dépendance préalable sur le cadre lama.cpp. Le nouveau moteur vise à offrir des performances, une fiabilité et une précision améliorées pour les utilisateurs exécutant des modèles d’IA qui interprètent à la fois le texte et les images directement sur leur propre matériel, comme détaillé dans les annonce officielle . href=”https://github.com/ollama/ollama/releases/tag/v0.7.0″Target=”_ Blank”> L’objectif principal de nouveau moteur , comme l’a expliqué Olllama, est de mieux gérer la complexité croissante des systèmes multimodaux, qui combinent divers types de données. Cette initiative vise à fournir un fondement plus stable et efficace pour les modèles de vision actuels, tels que Meta’s Llama 4, Google’s Gemma 3, le QWEN 2.5 VL d’Alibaba et Mistral Small 3.1-et ouvrent la voie aux capacités futures. Il s’agit notamment du traitement de la parole, de la génération d’images et de vidéos axée sur l’IA, et une intégration élargie des outils, promettant une expérience d’IA locale plus robuste. La version a également noté des mises à jour fonctionnelles telles que la prise en charge de l’image WebP.

Le mouvement de Olllama vers un moteur interne aborde les difficultés d’intégrer diverses architectures multimodales. La société a expliqué sa justification, déclarant: «Comme de plus en plus de modèles multimodaux sont publiés par les principaux laboratoires de recherche, la tâche de soutenir ces modèles comme Olllama l’intention est devenue de plus en plus difficile.»

Cette difficulté est née dans les limites du projet GGML-Org/Llama.cpp existant. La nouvelle architecture met l’accent sur la modularité du modèle; Selon Ollama, l’objectif est de «confiner le« rayon de souffle »de chaque modèle à lui-même-améliorer la fiabilité et faciliter les créateurs et les développeurs d’intégrer de nouveaux modèles». Cette conception, avec des exemples disponibles sur Le référentiel Github d’Ollama , permet à chaque modèle d’être autonome avec sa propre couche de projection, là-bas, ce qui simplifie l’intégration pour les créateurs de modèles. Améliorations

Un principe de base du nouveau moteur d’Olllama est la poursuite d’une plus grande précision dans l’inférence locale, en particulier lors du traitement des grandes images qui peuvent se traduire par un volume substantiel de jetons. Le système intègre désormais des métadonnées supplémentaires pendant le traitement d’image. Il est également conçu pour gérer plus précisément les données par lots et positionnelles, car Olllama souligne que le fractionnement d’images incorrect peut avoir un impact négatif sur la qualité de la sortie.

La gestion de la mémoire voit également des améliorations significatives. Le moteur introduit la mise en cache d’image, garantissant qu’une fois une image traitée, elle reste facilement accessible pour les invites ultérieures sans être jeté prématurément. Olllama a également déployé les optimisations de Kvcache-une technique pour accélérer l’inférence du modèle du transformateur en mettant en cache des états de clé et de valeur.

De plus, la société collabore activement avec des géants matériels comme Nvidia, AMD, Qualcomm, Intel et Microsoft. Ce partenariat vise à affiner l’estimation de la mémoire grâce à la détection précise des métadonnées matérielles et implique de tester Olllama contre de nouvelles versions de firmware.

Des adaptations spécifiques ont été effectuées pour des modèles tels que Meta’s LLAMA 4 Scout-un modèle de 109 milliards de paramètre Séquences dans les segments pour enregistrer la mémoire) et une intégration rotative 2D spécialisée (une méthode pour coder des informations de position dans les transformateurs).

Contexte dans l’écosystème de l’IA local en évolution

L’annonce de l’IA locale d’Ollama au milieu d’une période d’évolution dynamique dans l’Open-Source local II Sphere. Notamment, le projet lama.cpp lui-même a récemment intégré le support de vision complet via sa nouvelle bibliothèque `libmtmd`. Le llama.cpp Documentation Le projet fondamental Llama.cpp a été un point de discussion au sein de la communauté des utilisateurs. Dans un Hacker News Thread Dissection de l’annonce d’Olllama, certains participants ont demandé clarté sur ce qui était fondamentalement nouveau. Golang et Llama.cpp ont fait le leur en C ++. Il a ajouté que leur travail a été effectué en parallèle avec llama.cpp, non basé sur cela, et a reconnu:”Je suis vraiment apprécié que Georgi attrape quelques choses que nous nous sommes trompés dans notre implémentation.”

Un autre utilisateur dans la discussion,”Nolist_Policy”, a mis en évidence un avantage technique spécifique,”pour un ollama ne soutient pas l’attention de la fenêtre Sliding. ISWA réduit la taille du cache KV à 1/6.”En référence à un GiTHub Issue pour un contexte supplémentaire. L’attention des fenêtres coulissantes entrelacées (ISWA) est une technique d’efficacité pour les modèles de transformateurs. 

Capacités futures et implications plus larges

Avec son nouveau moteur maintenant opérationnel, Olllama vise à étendre davantage les capacités de sa plate-forme. La feuille de route de l’entreprise comprend des ambitions de soutenir des tailles de contexte beaucoup plus longues, de permettre des processus de raisonnement plus sophistiqués au sein des modèles et d’introduire des appels à outils avec des réponses en streaming. Ces améliorations prévues visent à rendre les modèles d’IA à exécuter localement plus polyvalents et plus puissants dans un spectre plus large d’applications.

Ce pivot stratégique d’Olllama pour développer un moteur personnalisé souligne une tendance plus large dans l’industrie de l’IA vers des outils spécialisés nécessaires pour tirer pleinement parti du potentiel d’IA multimodal. En affirmant un plus grand contrôle sur le pipeline d’inférence, Olllama a l’intention d’offrir une plate-forme plus rationalisée et fiable pour les développeurs et les utilisateurs finaux qui souhaitent utiliser des modèles d’IA avancés sur leurs appareils informatiques personnels.

Categories: IT Info