sogar Meta-Plattformen sind nicht immun gegen die erstaunlichen Kosten des KI-Rennens. Das Unternehmen verbrachte Teile des letzten Jahres damit, sich den Wettbewerbern zu nähern, darunter Microsoft, Amazon und andere, und suchte finanzielle Hilfe, um seine Flaggschiff-Lama-Großsprachenmodelle auszubilden, so vier Personen, die über die Diskussionen übernommen wurden. Informationen .

Diese Ouvertüren, Berichten zufolge als”Lama Consortium”-Pitch bezeichnet, wurden von der Besorgnis innerhalb von Meta über die eskalierenden Ressourcen getrieben, die für seine Entwicklung künstlicher Intelligenz erforderlich sind, sagten zwei Personen. Als Süßungsmittel diskutierte Meta offenbar mit dem Geben potenzieller finanzieller Unterstützer in Lamas zukünftiger Merkmale. Der Versuch zeigt jedoch die intensive finanzielle Belastung, die mit dem Aufbau führender KI-Systeme verbunden ist, auch auf Unternehmen mit den tiefen Taschen von Meta Druck ausübt und die hohen Einsätze an generativen AIs signalisiert. Die neuesten Modelle von Meta

Meta nach Finanzierungspartnern werden seine jüngste Lama 4-Ankündigung in ein neues Licht ausgesetzt. Diese Veröffentlichung führte LLAMA 4 Scout (109B Gesamtparameter, 17B aktiv) ein, die auf eine einzelne GPU-Verwendung mit einem außergewöhnlich großen 10-Millionen-Token-Kontextfenster abzielten. Dies in der Lage ist, ungefähr 7,5 Millionen Wörter gleichzeitig zu verarbeiten. Beide verwenden eine Mischung aus Experten (MOE), eine Technik mit speziellen Sub-Networks („Experten“), bei der nur die notwendigen pro Aufgabe aktiviert werden, um eine stärkere Effizienz während des Betriebs abzusetzen, im Vergleich zu dichten Modellen, bei denen alle Parameter immer verwendet werden.

Untermauerung Dies ist das bisher unveröffentlichte Lama 4-Gigant, ein 2-Billion-Parametermodell, das intern für die Destillation verwendet wird (unterrichten kleinerer Modelle), das eine Schulung über bis zu 32.000 GPUs erforderte. Meta verwendete Techniken wie FP8-Präzision-ein Format mit niedrigerer Präzisionszahlen, das Berechnungen beschleunigt-und neuartige architektonische Komponenten wie die Einbettung der Rotationsposition (IROPE) effektiv mit verschachtelten Rotationspositionsbettungen umgehen. enorme Rechenleistung und technische Anstrengung, die den potenziellen Bedarf an gemeinsamen Investitionen direkt erläutert. Während MOE potenzielle Inferenz-Effizienz bietet, bleibt die Schulungskosten im Voraus ein wesentlicher Faktor. Das Unternehmen erklärte öffentlich, dass sein Ziel den wahrgenommenen politischen Vorurteilen in LLMs entgegenwirkte und feststellte:”Es ist bekannt, dass alle führenden LLMs Probleme mit Verzerrungen hatten. Insbesondere haben sie sich in der Vergangenheit nach links lehnten, wenn es um debattierte politische und soziale Themen zurückzuführen ist. Bereitstellung von Sicherheitswerkzeugen wie Lama Guard und dem Ziegen-Red-Teaming-System-eine Methode des kontroversen Tests, um Schwachstellen zu finden. Diese Feinabstimmungs-und Sicherheitsschichten fügen den weiteren Entwicklungsaufwand hinzu. Aktive Klagen, darunter eines, an dem Comedian Sarah Silverman beteiligt war, behaupten, dass das Unternehmen Lama-Modelle in massiven Datensätzen von Raubkopien aus Bibliotheken wie Libgen über BitTorrent-Datei-Sharing ausgebildet habe. Gerichtsdokumente enthüllten Berichten zufolge interne Befürchtung, wobei ein Ingenieur sagte:”Torrenting aus einem [meta-Besitz]-Korporate-Laptop ist nicht richtig.”Solche Kontroversen könnten einen wesentlichen, wenn auch weniger sichtbaren Treiber der Gesamtkosten für KI-Entwicklungen darstellen. Die Modelle wurden kurz nach dem Start in WhatsApp, Instagram und Facebook in Meta AI-Funktionen integriert. Sie wurden auch zum Download und über Cloud-Partner zur Verfügung gestellt-darunter Amazon Sagemaker Jumpstart und Microsofts