Ollama ha lanciato un aggiornamento significativo alla sua piattaforma di intelligenza artificiale locale, introducendo un motore proprietario progettato per migliorare il supporto del modello multimodale. Questo sviluppo segnala un passaggio strategico dalla sua precedente dipendenza dal framework Llama.CPP. Il nuovo motore mira a offrire prestazioni, affidabilità e accuratezza migliorate per gli utenti che eseguono modelli AI che interpretano sia il testo che le immagini direttamente sul proprio hardware, come dettagliato nell’annuncio ufficiale di”a blank”>. href=”https://github.com/ollama/ollama/releases/tag/v0.7.0″target=”_ blank”> nuovo motore , come ha spiegato Ollama, è gestire meglio la crescente complessità dei sistemi multimodali, che combinano tipi di dati diversi. Questa iniziativa cerca di fornire una base più stabile ed efficiente per gli attuali modelli di visione-come Meta’s Llama 4, Google’s Gemma 3, Qwen 2.5 VL di Alibaba e Mistral Small 3.1-e apre la strada alle capacità future. Questi includono l’elaborazione vocale, la generazione di immagini e video basate sull’intelligenza artificiale e l’integrazione degli strumenti ampliati, promettendo un’esperienza di intelligenza artificiale locale più solida. Il rilascio ha anche notato aggiornamenti funzionali come il supporto di immagini WebP.

Il passaggio di Ollama a un motore interno affronta le difficoltà di integrare diverse architetture multimodali. La società ha spiegato la sua logica, affermando:”Man mano che vengono pubblicati più modelli multimodali dai principali laboratori di ricerca, il compito di supportare questi modelli nel modo in cui Ollama intende è diventato sempre più impegnativo.”

Questa difficoltà è sorta all’interno dei confini del progetto GGML-ORG/Llama.CPP esistente. La nuova architettura enfatizza la modularità del modello; Secondo Ollama, l’obiettivo è”limitare il”raggio di esplosione”di ogni modello, migliorando l’affidabilità e rendendo più facile per i creatori e gli sviluppatori integrare nuovi modelli”. Questo design, con esempi disponibili su Il repository github di Ollama , consente a ogni modello di essere autosufficiente con il proprio strato di projection, semplificare l’integrazione per il modello di creazione. Miglioramenti

Un principio fondamentale del nuovo motore di Ollama è il perseguimento di una maggiore precisione nell’inferenza locale, in particolare durante l’elaborazione di grandi immagini che possono tradursi in un volume sostanziale di token. Il sistema ora incorpora metadati aggiuntivi durante l’elaborazione delle immagini. È inoltre progettato per gestire i dati di batch e posizionale in modo più preciso, poiché Ollama evidenzia che la divisione delle immagini errata può influire negativamente sulla qualità dell’output.

La gestione della memoria vede anche miglioramenti significativi. Il motore introduce la memorizzazione nella cache delle immagini, garantendo che una volta elaborata un’immagine, rimane facilmente accessibile per i successivi prompt senza essere scartato prematuramente. Ollama ha anche implementato le ottimizzazioni di KVCache: una tecnica per accelerare l’inferenza del modello di trasformatore cache di memorizzazione nella cache e stati di valore.

Inoltre, la società sta collaborando attivamente con giganti hardware come Nvidia, AMD, Qualcomm, Intel e Microsoft. Questa partnership mira a perfezionare la stima della memoria attraverso un rilevamento accurato dei metadati hardware e prevede il test di ollama contro le nuove versioni del firmware.

sono stati fatti adattamenti specifici per modelli come il Meta Llama 4 Scout-A 109 miliardi di mixatura a pressione di sfumature di macullazione, un modello di sottore-moderi, un miscuglio di marvetteri, un mixa di maverick, un miscuglio di marveri di marveri. (sequenze di elaborazione in segmenti per salvare la memoria) e incorporamento rotativo 2D specializzato (un metodo per codificare le informazioni di posizione nei trasformatori).

Contesto nell’evoluzione evolutiva ecosistema locale

l’annuncio di Ollama terrestri in mezzo a un periodo di evoluzione dinamica nell’ecosistema locale aperto. In particolare, il progetto LLAMA.CPP stesso Supporto completo di visione integrato recentemente tramite la sua nuova libreria `libmtmd`. The llama.cpp documentation Descrive il proprio supporto multimodale come un rapido sviluppo. Ollama e il progetto fondamentale Llama.CPP è stato un punto di discussione all’interno della comunità utente. In un thread di notizie hacker Dissecando l’annuncio di Ollama, alcuni partecipanti hanno cercato la chiarezza su ciò che era fondamentalmente nuovo. Golang e Llama.CPP hanno fatto il loro in C ++. Ha aggiunto che il loro lavoro è stato svolto in parallelo con Llama.CPP, non basato su di esso, e ha riconosciuto:”Sono davvero riconoscente che Georgi ha catturato alcune cose che abbiamo sbagliato nella nostra implementazione.”

Un altro utente nella discussione,”Nolist_policy”, evidenziato un vantaggio tecnico specifico, sostenendo,”per un olanco. Llama.CPP no. Facendo riferimento a numero github per un ulteriore contesto. L’attenzione scorrevole della finestra interleavata (ISWA) è una tecnica di efficienza per i modelli di trasformatore. 

Le capacità future e le implicazioni più ampie

Con il suo nuovo motore ora operativo, Ollama sta permettendo di espandere ulteriormente le capacità della sua piattaforma. La tabella di marcia dell’azienda include le ambizioni di supportare dimensioni di contesto significativamente più lunghe, consentire processi di ragionamento più sofisticati all’interno dei modelli e introdurre le chiamate degli strumenti con le risposte di streaming. Questi miglioramenti pianificati mirano a rendere i modelli di AI a livello locale più versatili e potenti in uno spettro più ampio di applicazioni.

Questo perno strategico da parte di Ollama per sviluppare un motore personalizzato sottolinea una tendenza più ampia nel settore dell’IA verso gli strumenti specializzati richiesti per levigarsi appieno per levigarsi completamente per colpire il potenziale di AI multimodale. Afferrando un maggiore controllo sulla pipeline di inferenza, Ollama intende offrire una piattaforma più snella e affidabile sia per gli sviluppatori che per gli utenti finali che desiderano utilizzare modelli AI avanzati sui loro dispositivi di personal computing.

Tuttavia, mentre gli utenti beneficiano di utenti digitali migliorati.

Categories: IT Info