Hugging Face 推出了兩款輕量級 AI 模型:SmolVLM-256M-Instruct 和 SmolVLM-500M-Instruct,旨在重新定義 AI 如何在運算能力有限的裝置上運作。

這些模型分別使用 2.56 億和 5 億個參數,旨在解決開發人員以最低成本處理受限硬體或大規模資料分析所面臨的挑戰。代表了人工智慧處理效率和可訪問性的突破。 SmolVLM 模型提供先進的多模式功能,可實現描述影像、分析短影片以及回答有關 PDF 或科學圖表的問題等任務。

如Hugging Face 所解釋的,「SmolAAAAABAAEAAAICTAEAOw==”>

如Hugging Face 所解釋的,「SmolmolVLM 使得建立可搜尋的速度更快、成本更低資料庫,其速度可與10 倍大小的模型相媲美。

SmolVLM-256M-Instruct SmolVLM-500M-Instruct 旨在最大限度地提高性能,同時最大限度地減少資源消耗。此類多模態模型可同時處理和解釋多種形式的數據(例如文字和圖像),使其適用於多種應用。/idefics-80b”>Idefics 80B 等大得多的模型相當或更好。CNN2D 等基準測試,評估理解科學圖表和推理的能力。

Idefics 80B 是DeepMind 的閉源Flamingo 視覺語言模型,由Hugging Face 開發,可以處理圖像和文字輸入。/Hugging-Face-SmolVLM-model-family-benchmarks-1024×588.jpg”>來源:Hugging Face

這些模型的開發依賴兩個專有資料集:The Cauldron 和 Docmatix。 Cauldron 是 50 個高品質圖像和文字資料集的精選集合,強調多模式學習,而 Docmatix 專為文件理解而定制,將掃描文件與詳細標題配對以增強理解。

Hugging Face 的M4 團隊以其在多模態AI 領域的專業知識而聞名,他們帶頭創建了這些數據集。更易於使用的重要性。團隊表示:「開發人員告訴我們,他們需要筆記型電腦甚至瀏覽器的模型,而回饋推動了這些模型的創建。」這些模型解決了許多開發人員面臨的實際限制,特別是在使用消費性設備或注重預算的操作時。項決定是採用更小的視覺編碼器,SigLIP 基礎補丁-16/512,而不是SmolVLM 2B 等先前模型中使用的較大的SigLIP 400M SO。種較小的編碼器可以以更高解析度處理影像,而不會顯著增加計算開銷。其中數據被劃分為更小的單元(標記)進行分析。透過優化影像標記的處理方式,Hugging Face 減少了冗餘並提高了模型處理複雜資料的能力。

例如,先前映射到多個標記的子影像分隔符號現在以單一標記表示,從而增強了訓練穩定性和推理品質。 「透過SmolVLM,我們正在重新定義較小的AI 模型可以實現的目標,」團隊在聲明中解釋道。進行編碼,這是一個重大的進展。 strong>

實用性。為這兩種模型提供了指令微調檢查點,從而可以輕鬆自訂特定任務。Docling 系統Apache 下使用2.0 授權,確保全球開發者開放存取。這種對開源開發的承諾與Hugging Face 實現AI 民主化的使命相一致,讓更多組織能夠採用先進技術,而無需面臨過高的成本。

SmolVLM-256M 和 SmolVLM-500M 的推出完善了 SmolVLM 系列,該系列現在包括專為各種應用而設計的全系列小型視覺語言模型。

這些模型對於資源有限的環境特別有效,例如消費性筆記型電腦或基於瀏覽器的應用程式。 256M 變體是迄今為止發布的最小視覺語言模型,因其能夠在RAM 小於1GB 的設備上提供強大的性能而脫穎而出。方案。

Categories: IT Info