Ollama a lansat o actualizare semnificativă la platforma sa locală AI, introducând un motor proprietar conceput pentru a îmbunătăți suportul multimodal al modelului. Această dezvoltare semnalează o schimbare strategică de la dependența sa prealabilă pe cadrul LLAMA.CPP. Noul motor își propune să ofere performanțe, fiabilitate și precizie îmbunătățite pentru utilizatorii care rulează modele AI care interpretează atât text, cât și imagini direct pe propriul hardware, așa cum este detaliat în compania Anunțul oficial .

the New Engine , obiectivul principal al lui, după cum a explicat Ollama, este de a gestiona mai bine complexitatea crescândă a sistemelor multimodale, care combină tipuri de date diverse. Această inițiativă încearcă să ofere o bază mai stabilă și mai eficientă pentru modelele de viziune actuale-cum ar fi Llama 4, Google GEMMA 3, Alibaba Qwen 2.5 VL și Mistral Small 3.1-și deschide calea pentru capacitățile viitoare. Acestea includ procesarea vorbirii, generarea de imagini și video bazate pe AI și integrarea extinsă a instrumentelor, promițând o experiență AI locală mai robustă. Versiunea a remarcat, de asemenea, actualizări funcționale, cum ar fi suportul de imagine WebP.

Ollama Mutarea la un motor intern abordează dificultățile de integrare a arhitecturilor multimodale diverse. Compania și-a explicat rațiunea, afirmând: „Pe măsură ce mai multe modele multimodale sunt lansate de laboratoarele majore de cercetare, sarcina de a sprijini aceste modele în modul în care Ollama intenționează a devenit din ce în ce mai dificilă. Noua arhitectură subliniază modularitatea modelului; Potrivit lui Ollama, scopul este de a „limita„ raza de explozie “a fiecărui model la sine-îmbunătățirea fiabilității și facilitarea creatorilor și dezvoltatorilor să integreze noi modele”. Acest design, cu exemple disponibile pe depozitul github al lui Ollama , permite fiecărui model să fie conștientizat de sine cu propriul său strat de proiecție, simplificând prin urmare integrarea și performanța pentru creatori de modele. Îmbunătățiri

Un principiu de bază al noului motor al lui Ollama este urmărirea unei precizii mai mari în inferența locală, în special atunci când se prelucrează imagini mari care se pot traduce într-un volum substanțial de jetoane. Sistemul încorporează acum metadate suplimentare în timpul procesării imaginilor. De asemenea, este conceput pentru a gestiona mai precis datele despre loturi și poziționale, deoarece Ollama subliniază faptul că divizarea incorectă a imaginii poate avea un impact negativ asupra calității ieșirii.

Managementul memoriei observă, de asemenea, îmbunătățiri semnificative. Motorul introduce memoria în cache a imaginilor, asigurându-se că, odată procesată o imagine, rămâne ușor accesibilă pentru prompturile ulterioare, fără a fi aruncată prematur. Ollama a lansat, de asemenea, optimizări KVCache-o tehnică pentru a accelera inferența modelului transformatorului prin cache-uri de cache și stări de valoare.

Mai mult, compania colaborează activ cu giganți hardware precum NVIDIA, AMD, Qualcomm, Intel și Microsoft. This partnership aims to refine memory estimation through accurate hardware metadata detection and involves testing Ollama against new firmware releases.

Specific adaptations have been made for models like Meta’s Llama 4 Scout—a 109-billion-parameter mixture-of-experts (MoE) model where different parts of the input are processed by specialized sub-models—and Maverick, incorporating features such as atenție atrăgătoare (secvențe de procesare în segmente pentru a salva memoria) și încorporarea rotativă 2D specializată (o metodă pentru codificarea informațiilor poziționale în transformatoare).

contextul în evoluția ecosistemului local AI

Ollama Local Locals, în timp ce o perioadă de evoluție dinamică în domeniul AI-ului local deschis. În special, proiectul llama.cpp în sine Suport recent integrat de viziune integrată prin noua sa bibliotecă `libmtmd`. llama.cpp documentație descrie propriul său suport multimodale ca o subprompat de dezvoltare rapidă și întreprindere. Proiectul fundamental llama.cpp a fost un punct de discuție în cadrul comunității de utilizatori. Într-un Hacker News Thread disecția anunțului lui Ollama, unii participanți au căutat claritate cu privire la ceea ce a fost fundamental nou. Golang și llama.cpp au făcut-o în C ++. El a adăugat că munca lor a fost făcută în paralel cu llama.cpp, care nu se bazează pe ea și a recunoscut: „Sunt foarte apreciat ca Georgi să prindă câteva lucruri pe care le-am greșit în implementarea noastră.”

Un alt utilizator în discuție, „Nolist_Policy”, a evidențiat un avantaj tehnic specific, revendicând „pentru o singură asistență Olama. Reduce dimensiunea cache-ului KV la 1/6.”Referință a emisiunea github pentru un context suplimentar. Atenția ferestrei glisante intercalate (ISWA) este o tehnică de eficiență pentru modelele de transformare. 

Capabilități viitoare și implicații mai largi

Cu noul său motor acum operațional, Ollama își stabilește obiectivele privind extinderea în continuare a capacităților platformei sale. Foaia de parcurs a companiei include ambiții de a sprijini dimensiuni de context semnificativ mai lungi, de a permite procese de raționament mai sofisticate în cadrul modelelor și de a introduce apeluri de instrumente cu răspunsuri la streaming. Aceste îmbunătățiri planificate își propun să facă ca modelele AI să ruleze local mai versatile și mai puternice într-un spectru mai larg de aplicații.

Acest pivot strategic de Ollama pentru a dezvolta un motor personalizat subliniază o tendință mai largă în industria AI către unelte specializate necesare pentru a valorifica pe deplin potențialul AI multimodal. Afirmând un control mai mare asupra conductei de inferență, Ollama intenționează să ofere o platformă mai simplificată și mai de încredere atât pentru dezvoltatori, cât și pentru utilizatorii finali care doresc să utilizeze modele AI avansate pe dispozitivele lor de calcul personal.

Cu toate acestea, în timp ce utilizatorii beneficiază de instrumente multimodale îmbunătățite, astfel de progrese ar putea prezenta și noi averi pentru a fi necorespunzătoare.

Categories: IT Info