Google hat Gemma 3n vollständig veröffentlicht, eine neue Generation von Open-Source-Modellen für künstliche Intelligenz, die konsumierten, um leistungsstarke multimodale Funktionen direkt auf Verbrauchergeräte zu bringen. In einem signifikanten Schritt zur Demokratisierung der erweiterten KI können diese Modelle Bilder, Audio-und Videoeingänge verarbeiten, um Text zu generieren und gleichzeitig auf Hardware mit nur 2 GB Speicher zu arbeiten, was eine komplexe KI von der Cloud effektiv entzündet. href=”https://developers.googleblog.com/en/introducing–3n-developer-guide/”target=”_ leer”> Offizieller Entwicklerhandbuch führt eine „mobile“ Modelsfamilie ein, die im Gegensatz zu Googles größeren, proprietären Gemini-Systemen steht. Die neuen Modelle sind in zwei Hauptgrößen erhältlich, E2B und E4B, die architektonische Innovationen verwenden, um mit einem mit viel kleineren Modellen vergleichbaren Speicherpflichtzdruck zu betreiben. Dieser Durchbruch der Effizienz bedeutet, dass Entwickler jetzt anspruchsvolle, offline-fähige KI-Anwendungen auf einer Vielzahl von alltäglichen Hardware erstellen und bereitstellen können, von Smartphones bis hin zu Laptops. Die vollständige Veröffentlichung verfestigt Google, um die Entwicklergemeinschaft mit Tools zu befähigen, die zuvor die Domäne von großen Rechenzentren waren und sich grundsätzlich verändern können, die mit hochmodernen Ai aufbauen können. Architektur der Barrierefreiheit
im Herzen der Effizienz von Gemma 3n ist eine neuartige Architektur, die von Grund auf für die Leistung des Geräts entwickelt wurde. Google führt ein, was es als Matformer oder Matryoshka-Transformator, Architektur , vorstellt. Auf diese Weise können Entwickler ein Spektrum von Modellgrößen bereitstellen, die auf bestimmte Hardware-Einschränkungen zugeschnitten sind, wobei Google ein matformer lab bereitstellt, um optimale Konfigurationen zu identifizieren. Mit dieser Innovation können ein großer Teil der Parameter des Modells auf der Haupt-CPU eines Geräts verarbeitet werden, wodurch die Menge des erforderlichen Hochgeschwindigkeits-Beschleunigungsspeichers (VRAM) drastisch verringert wird. Die Architektur verwendet auch die KV-Cache-Freigabe, die das Unternehmen behauptet, die Geschwindigkeit der anfänglichen Verarbeitung zu verdoppeln. Diese Ökosystemstrategie scheint ein zentraler Bestandteil des doppelten Ansatzes des Unternehmens zur KI-Entwicklung zu sein. Laut Ein Venturebeat-Interview Mit Google Product Manager Priya Singh sieht das Unternehmen die offenen und geschlossenen Modelle als offene und geschlossene Modelle als eine Symbiotik-Beziehung an. Google sieht Gemma und Gemini nicht als Konkurrenten, mehr zwei Seiten derselben Medaille. Das Unternehmen analysiert, was Entwickler mit Gemma bauen, um zu ermitteln, wohin sie als nächstes mit Frontier Research gehen sollen. Dazu gehören Txgemma, eine Reihe von Werkzeugen zur Erkennung von Arzneimitteln, die auf der vorherigen Gemma 2-Architektur basieren, und das hochspezialisierte Dolphingemma. Letzteres ist eine einzigartige Zusammenarbeit mit dem Wild-Delphin-Projekt zur Analyse von Jahrzehnten von Delphinaufnahmen und versucht, Muster in der Tierkommunikation zu finden-eine Aufgabe, die die Grenzen der AI-Anwendung überschreitet. Begeisterung für seine sofortige Benutzerfreundlichkeit. Der unabhängige Entwickler Simon Willison lobte den umfassenden Charakter der Veröffentlichung und nannte es”Gemma 3n ist auch der umfassendste Start am ersten Tag, den ich für jedes Modell gesehen habe.”In praktischen Tests detailliert auf seinem Blog , hob Willison die breite, tagelange Unterstützung von populären Tools wie Ollama und MLX hervor. Während er erfolgreich eine Version des Modells für die Audio-Transkription verwendete, bemerkte er auch einige erste Macken, wobei das Modell ein Bild nicht richtig beschreibt, das gerade erzeugt wurde. target=”_ leer”> Gemma 3n Impact Challenge , ein Wettbewerb mit 150.000 US-Dollar an Preisen für Entwickler, die die neuen Modelle zum Erstellen von Produkten zum sozialen Gut verwenden. Die Modelle verfügen über einen erweiterten Audio-Encoder, der auf dem Universal Sprachmodell (USM) und eine neue hochkarätige Sicht-Encoder, Mobilen-V5-Jätigkeit, die auf einem 60-künstlichen Ranger-Pixel-Geräte, auf einem Google-Pixel-Geräte, basiert. Effizienz und Macht haben auf Bestenlisten beeindruckende Ergebnisse geführt. Die größere Gemma 3N E4B-Variante ist das erste Modell unter 10 Milliarden Parametern, um einen Larena-Score von über 1300 zu erzielen, ein Benchmark, der die Leistung auf der Grundlage menschlicher Präferenzen misst.
Durch die Entwicklung eines leistungsstarken multimodalen Modells, das auf den Geräten leben kann, die Menschen jeden Tag verwenden, veröffentlicht Google nicht nur ein neues Tool, sondern macht eine klare Aussage. Der Schritt stellt die Vorstellung in Frage, dass die modernste KI ausschließlich in der Cloud liegen und eine neue Welle von Entwicklern befähigen muss, die nächste Generation von intelligenten, privaten und zugänglichen Anwendungen aufzubauen.