Ollama ได้เปิดตัวการอัปเดตที่สำคัญไปยังแพลตฟอร์ม AI ในพื้นที่แนะนำเอ็นจิ้นที่เป็นกรรมสิทธิ์ที่ออกแบบมาเพื่อเพิ่มการสนับสนุนแบบจำลองหลายรูปแบบ การพัฒนานี้ส่งสัญญาณการเปลี่ยนแปลงเชิงกลยุทธ์จากการพึ่งพาก่อนหน้านี้ในกรอบ Llama.cpp เอ็นจิ้นใหม่มีจุดมุ่งหมายเพื่อส่งมอบประสิทธิภาพความน่าเชื่อถือและความแม่นยำที่ดีขึ้นสำหรับผู้ใช้ที่ใช้งานโมเดล AI ที่ตีความทั้งข้อความและรูปภาพโดยตรงบนฮาร์ดแวร์ของตัวเองตามรายละเอียดใน เครื่องยนต์ใหม่ เป้าหมายหลักของ Ollama ที่อธิบายไว้คือการจัดการความซับซ้อนที่เพิ่มขึ้นของระบบหลายรูปแบบซึ่งรวมกันประเภทข้อมูลที่หลากหลาย ความคิดริเริ่มนี้พยายามที่จะให้รากฐานที่มั่นคงและมีประสิทธิภาพมากขึ้นสำหรับโมเดลวิสัยทัศน์ปัจจุบันเช่น Llama 4 ของ Meta, Gemma 3 ของ Google, Qwen 2.5 VL ของ Alibaba และ Mistral Small 3.1 และปูทางไปสู่ความสามารถในอนาคต สิ่งเหล่านี้รวมถึงการประมวลผลคำพูดการสร้างภาพและวิดีโอที่ขับเคลื่อนด้วย AI และการรวมเครื่องมือที่ขยายตัวทำให้เกิดประสบการณ์ AI ในท้องถิ่นที่แข็งแกร่งยิ่งขึ้น การเปิดตัวยังระบุว่าการอัปเดตการทำงานเช่นการสนับสนุนรูปภาพ WebP
การย้ายของ Ollama ไปยังเครื่องยนต์ภายในที่อยู่ที่อยู่ที่อยู่ในความยากลำบากในการรวมสถาปัตยกรรมหลายรูปแบบที่หลากหลายเข้าด้วยกัน บริษัท อธิบายเหตุผลของมันโดยระบุว่า“ เมื่อโมเดลที่หลากหลายมากขึ้นได้รับการปล่อยตัวโดยห้องปฏิบัติการวิจัยที่สำคัญงานของการสนับสนุนรูปแบบเหล่านี้อย่างที่ Ollama ตั้งใจจะกลายเป็นความท้าทายมากขึ้นเรื่อย ๆ ”
ปัญหานี้เกิดขึ้นภายในขอบเขตของโครงการ GGML-ORG/LLAMA.CPP ที่มีอยู่ สถาปัตยกรรมใหม่เน้นโมเดลโมเดล จากข้อมูลของ Ollama จุดมุ่งหมายคือ“ จำกัด “ BLAST RADIUS” ของแต่ละรุ่นให้กับตัวเอง-ปรับปรุงความน่าเชื่อถือและทำให้ผู้สร้างและนักพัฒนาสามารถรวมโมเดลใหม่ ๆ ได้ง่ายขึ้น”การออกแบบนี้พร้อมตัวอย่างที่มีอยู่ใน repository github ของ Ollama การปรับปรุง
หลักหลักของเครื่องยนต์ใหม่ของ Ollama คือการแสวงหาความแม่นยำมากขึ้นในการอนุมานในท้องถิ่นโดยเฉพาะอย่างยิ่งเมื่อประมวลผลภาพขนาดใหญ่ที่สามารถแปลเป็นโทเค็นในปริมาณมาก ขณะนี้ระบบรวมข้อมูลเมตาเพิ่มเติมระหว่างการประมวลผลภาพ นอกจากนี้ยังได้รับการออกแบบมาเพื่อจัดการข้อมูลแบทช์และตำแหน่งที่แม่นยำยิ่งขึ้นเนื่องจาก Ollama เน้นว่าการแยกภาพที่ไม่ถูกต้องอาจส่งผลเสียต่อคุณภาพเอาต์พุต
การจัดการหน่วยความจำยังเห็นการปรับปรุงที่สำคัญ เครื่องยนต์แนะนำการแคชรูปภาพเพื่อให้แน่ใจว่าเมื่อประมวลผลภาพจะยังคงสามารถเข้าถึงได้ง่ายสำหรับการแจ้งเตือนที่ตามมาโดยไม่ต้องทิ้งก่อนกำหนด Ollama ได้เปิดตัวการเพิ่มประสิทธิภาพ KVCache ซึ่งเป็นเทคนิคในการเร่งการอนุมานแบบจำลองหม้อแปลงโดยการแคชคีย์และสถานะค่า
นอกจากนี้ บริษัท ยังร่วมมือกับยักษ์ฮาร์ดแวร์อย่าง Nvidia, AMD, Qualcomm, Intel และ Microsoft การเป็นหุ้นส่วนนี้มีจุดมุ่งหมายเพื่อปรับแต่งการประมาณค่าหน่วยความจำผ่านการตรวจจับข้อมูลเมตาฮาร์ดแวร์ที่แม่นยำและเกี่ยวข้องกับการทดสอบ Ollama กับการปล่อยเฟิร์มแวร์ใหม่
การปรับตัวเฉพาะได้ถูกสร้างขึ้นสำหรับแบบจำลองเช่นโมเดล Llama 4 ของเมตา ความสนใจอันน่าสนใจ (ลำดับการประมวลผลในเซ็กเมนต์เพื่อบันทึกหน่วยความจำ) และการฝังแบบโรตารี่แบบ 2D พิเศษ (วิธีการเข้ารหัสข้อมูลตำแหน่งในหม้อแปลง)
บริบทในการพัฒนาระบบนิเวศ AI ในท้องถิ่น
โดยเฉพาะอย่างยิ่งโครงการ llama.cpp เอง การสนับสนุนวิสัยทัศน์ที่ครอบคลุมเมื่อเร็ว ๆ นี้ ผ่านห้องสมุดใหม่ `libmtmd` หัวข้อข่าวแฮ็กเกอร์ การประกาศของ Ollama ผู้เข้าร่วมบางคนต้องการความชัดเจนในการพัฒนาของเรา Golang และ Llama.cpp ทำใน C ++ เขาเสริมว่างานของพวกเขาทำควบคู่ไปกับ llama.cpp ไม่ได้ขึ้นอยู่กับมันและยอมรับว่า“ ฉันรู้สึกซาบซึ้งใจที่ Georgi จับบางสิ่งที่เราทำผิดในการดำเนินการของเรา”
ผู้ใช้อีกคนหนึ่งในการอภิปราย ISWA ลดขนาดแคช KV เป็น 1/6″การอ้างอิง ปัญหา gitHub สำหรับบริบทเพิ่มเติม Interleaved Sliding Window Attention (ISWA) เป็นเทคนิคประสิทธิภาพสำหรับรุ่นหม้อแปลง
ความสามารถในอนาคตและผลกระทบที่กว้างขึ้น
ด้วยเครื่องมือใหม่ในขณะนี้ Ollama กำลังตั้งค่าสถานที่ในการขยายขีดความสามารถของแพลตฟอร์มต่อไป แผนงานของ บริษัท รวมถึงความทะเยอทะยานที่จะสนับสนุนขนาดบริบทที่ยาวขึ้นอย่างมีนัยสำคัญช่วยให้กระบวนการให้เหตุผลที่ซับซ้อนยิ่งขึ้นภายในโมเดลและแนะนำการเรียกเครื่องมือด้วยการตอบสนองการสตรีม การปรับปรุงที่วางแผนไว้เหล่านี้มีจุดมุ่งหมายเพื่อให้โมเดล AI ที่ใช้งานได้ในท้องถิ่นมีความหลากหลายและมีประสิทธิภาพมากขึ้นในการใช้งานที่กว้างขึ้นของแอพพลิเคชั่น
การหมุนรอบกลยุทธ์นี้โดย Ollama เพื่อพัฒนาเครื่องยนต์ที่กำหนดเอง ด้วยการควบคุมการอนุมานของท่อประกายมากขึ้น Ollama มุ่งมั่นที่จะนำเสนอแพลตฟอร์มที่มีความคล่องตัวและเชื่อถือได้มากขึ้นสำหรับทั้งนักพัฒนาและผู้ใช้ปลายทางที่ต้องการใช้ประโยชน์จากโมเดล AI ขั้นสูงบนอุปกรณ์คอมพิวเตอร์ส่วนบุคคลของพวกเขา