Ollama ha lanzado una actualización significativa a su plataforma de IA local, introduciendo un motor patentado diseñado para mejorar el soporte de modelos multimodales. Este desarrollo señala un cambio estratégico de su dependencia previa en el marco Llama.cpp. El nuevo motor tiene como objetivo ofrecer un rendimiento, confiabilidad y precisión mejorados para los usuarios que ejecutan modelos de IA que interpreten texto y imágenes directamente en su propio hardware, como se detalla en el Anuncio oficial .

href=”https://github.com/ollama/ollama/releases/tag/v0.7.0″Target=”_ Blank”> El objetivo principal del nuevo motor , como explicó Ollama, es manejar mejor la creciente complejidad de los sistemas multimodales, que combinan diversos tipos de datos. Esta iniciativa busca proporcionar una base más estable y eficiente para los modelos de visión actuales, como la Llama 4 de Meta, Gemma 3 de Google, el Qwen 2.5 VL de Alibaba y el pequeño 3.1, y pavimenta el camino para las capacidades futuras. Estos incluyen el procesamiento del habla, la generación de imágenes y videos impulsados ​​por la IA, e integración de herramientas ampliada, prometiendo una experiencia de IA local más robusta. La versión también observó actualizaciones funcionales como el soporte de imagen WebP.

el movimiento de Ollama a un motor interno aborda las dificultades de integrar diversas arquitecturas multimodales. La compañía explicó su justificación, afirmando:”A medida que los principales laboratorios de investigación son lanzados más modelos multimodales, la tarea de apoyar estos modelos la forma en que Ollama intenta se volvió cada vez más desafiante”.

Esta dificultad surgió dentro de los límites del proyecto GGML-ORG/LLAMA.CPP existente. La nueva arquitectura enfatiza la modularidad del modelo; Según Ollama, el objetivo es”limitar el”radio de explosión”de cada modelo a sí mismo, mejorando la confiabilidad y facilitando a los creadores y desarrolladores integrar nuevos modelos”. Este diseño, con ejemplos disponibles en el repositorio github de Ollama , permite que cada modelo sea autocontado con su propia capa de proyección, simplificando la integración para modelos de creadores de modelos.

Mejoras

Un principio central del nuevo motor de Ollama es la búsqueda de una mayor precisión en la inferencia local, particularmente cuando se procesan imágenes grandes que pueden traducirse en un volumen sustancial de tokens. El sistema ahora incorpora metadatos adicionales durante el procesamiento de imágenes. También está diseñado para administrar los datos de lotes y posicionales con mayor precisión, ya que Ollama destaca que la división incorrecta de imágenes puede afectar negativamente la calidad de salida.

La gestión de la memoria también ve mejoras significativas. El motor introduce almacenamiento en caché de imágenes, asegurando que una vez que se procese una imagen, permanece fácilmente accesible para las indicaciones posteriores sin ser descartado prematuramente. Ollama también ha implementado las optimizaciones de kvcache, una técnica para acelerar la inferencia del modelo de transformador mediante la clave de almacenamiento en caché y los estados de valor.

Además, la compañía está colaborando activamente con gigantes de hardware como Nvidia, AMD, Qualcomm, Intel y Microsoft. Esta asociación tiene como objetivo refinar la estimación de la memoria a través de la detección precisa de los metadatos de hardware e implica probar Ollama contra los nuevos lanzamientos de firmware.

Se han realizado adaptaciones específicas para modelos como Llama 4 de Meta 4 Scouts, un modelo de 109 mil millones de parámetros. secuencias en segmentos para guardar memoria) y una incrustación rotativa 2D especializada (un método para codificar información posicional en Transformers).

contexto en el ecosistema de IA local en evolución

El anuncio de Ollama lanza un período de evolución dinámica en la espina local de la fuente abierta. En particular, el proyecto Llama.cpp en sí mismo Soporte de visión integral recientemente integrado a través de su nueva biblioteca `libmtmd`. llama.cpp documentation Describe su propio soporte multimodal como un subyector de desarrollo rápido. El proyecto Foundational Llama.CPP ha sido un punto de discusión dentro de la comunidad de usuarios. En a Hacker News Thread Disección del anuncio de Ollama, algunos participantes buscaron claridad sobre lo que fue fundamentalmente nuevo.

Patrick_devine, un miembro del equipo de ollama, aclaró su aclaración, explicó su aclaración, lo que explicó,”, explicó nuestro aclaración, lo que explicó,”, explicó su aclaración de su desarrollo, lo que aclaró su aclaración, lo que aclaró su aclaración. Golang y Llama.cpp hicieron el suyo en C ++. Agregó que su trabajo se realizó en paralelo con llama.cpp, no basado en él, y reconoció:”Estoy realmente apreciativo de que Georgi atrapara algunas cosas que hagamos mal en nuestra implementación”.

otro usuario en la discusión,”nolist_policy”, resaltó una ventaja técnica específica, reclamando,”para que un ollama admite la atención de la ventana sliding sliding de gemema. ISWA reduce el tamaño de la caché de KV a 1/6″. Referencia a problema de github para un contexto adicional. La atención de la ventana deslizante entrelazada (ISWA) es una técnica de eficiencia para los modelos de transformadores. 

capacidades futuras e implicaciones más amplias

Con su nuevo motor ahora operativo, Ollama está estableciendo sus miras en expandir aún más las capacidades de su plataforma. La hoja de ruta de la compañía incluye ambiciones para admitir tamaños de contexto significativamente más largos, permitir procesos de razonamiento más sofisticados dentro de los modelos e introducir llamadas de herramientas con respuestas de transmisión. Estas mejoras planificadas tienen como objetivo hacer que los modelos de IA localmente ejecutados sean más versátiles y poderosos en un espectro más amplio de aplicaciones.

Este pivote estratégico de Ollama para desarrollar un motor personalizado subraya una tendencia más amplia en la industria de la IA hacia las herramientas especializadas requeridas para aprovechar completamente el potencial de la IA multimodal. Al afirmar un mayor control sobre la tubería de inferencia, Ollama tiene la intención de ofrecer una plataforma más optimizada y confiable tanto para los desarrolladores como para los usuarios finales que desean utilizar modelos de IA avanzados en sus dispositivos informáticos personales.

Sin embargo, mientras que los usuarios se benefician de las herramientas multimodales mejoradas, tales avances también podrían presentar nuevos aviones para el uso indebido, tales como en la creación de documentos o manipulados.

Categories: IT Info