Ein Konsortium der Universitäts-und Amazon-Forscher hat eine neue KI-Architektur, den energiebasierten Transformator (EBT), vorgestellt. Es ist so konzipiert, dass es Modelle mit menschlicheren analytischen Fähigkeiten ausstattiert. Der Ansatz zielt darauf ab, „System 2 Thinking“ in KI einzubringen, das häufig auf einer schnellen, intuitiven Mustererkennung beruht. Es beginnt mit einer zufälligen Lösung und verbessert es allmählich, um einen kalkulierten”Energie”-Schabe zu minimieren. Während frühe Ergebnisse darauf hindeuten, dass EBTs dateneffizienter sein könnten, erfordert die Methode mehr Berechnung. Dies stellt das derzeitige Paradigma der KI-Entwicklung in Frage. Die Arbeiten finden Sie unter a Projektseite und Was Nobel Laureat Daniel Kahneman als”system dacht”bezeichnet. Bilder fast sofort erkennen. Das EBT-Framework ist ein direkter Versuch, diesen tieferen kognitiven Prozess direkt in die Architektur des Modells aufzubauen. Ein Standardtransformator nimmt einen Eingang und erzeugt eine Ausgabe in einem einzelnen, deterministischen Vorwärtspass. Im Gegensatz dazu lernt ein EBT eine komplexe, hochdimensionale „Energielandschaft“ für alle möglichen Vorhersagen, die sich auf einen bestimmten Kontext beziehen. Anschließend werden die Prinzipien des Gradientenabstiegs iterativ diese Vermutung iterativ verfeinert und sie im Wesentlichen in der gelehrten Energiemandschaft „gehen“, bis sie sich in einem möglichst niedrigsten Punkt oder „Energy Valley“ niederlässt. Dieser iterative Verfeinerungsprozess ist der Kern des „Denkens“ des EBT-Mechanismus. Es ermöglicht das Modell, einen Raum potenzieller Lösungen zu untersuchen, anstatt in einen einzelnen Pfad eingeschlossen zu werden. Die erste ist die dynamische Berechnungszuweisung. Für ein einfaches Problem kann das Modell möglicherweise in wenigen Schritten das Energie-Minimum finden. Für einen komplexen kann es viele weitere Schritte erfordern und mehr „Gedanken“ über das Problem ausgeben.

Die zweite Facette ist die Fähigkeit, Unsicherheiten zu modellieren. Eine glatte Energielandschaft mit einem klaren Minimum zeigt eine hohe Sicherheit an. Eine robuste Landschaft mit vielen lokalen Tälern legt nahe, dass das Modell ungewiss ist, da mehrere plausible Antworten vorhanden sind. Dies liefert ein differenzierteres Verständnis des eigenen Vertrauens des Modells. Die endgültige Energiebewertung einer Vorhersage dient als eingebaute Qualitätsprüfung. Eine niedrige Punktzahl zeigt eine qualitativ hochwertige, verifizierte Antwort an, während eine hohe Punktzahl eine schlechte Signale signalisiert, ohne ein separates Überprüfungsmodell zu benötigen. Es geht über die einfache Mustererzeugung hinaus zu einem Prozess der aktiven, iterativen Problemlösung und markiert einen signifikanten konzeptionellen Schritt in der Suche nach fähigeren künstlichen Intelligenz. Während ein Standardtransformator den direkten Weg zu einer Antwort lernen muss, lernt ein EBT, die „Korrektheit“ einer bestimmten Antwort zu bewerten-eine einfachere Aufgabe, die offenbar effektiver zu verallgemeinern scheint. In ihrem Papier wird berichtet, dass die EBTS effizienter als die Basislinie des erweiterten Transformators ++ und eine höhere Skalierungsrate von 35% in Bezug auf Daten zeigt.

Die verbesserte Dateneffizienz ist besonders bemerkenswert. Es deutet darauf hin, dass ein EBT im Maßstab die gleiche Leistung wie ein Standardtransformator erzielen könnte, während sie wesentlich weniger Daten trainieren. In einer Zeit, in der sich die Branche an die Grenzen hochwertiger Schulungsdaten im Internet nähert, ist die Entwicklung dateneffizienterer Architekturen ein kritisches strategisches Ziel für den Fortschritt der AI. Erstens kann das Modell iterativere Verfeinerungsschritte zu einer einzelnen Vorhersage ausführen und mehr Berechnung für ein schwieriges Problem widmen. Zweitens kann es mehrere Kandidatenantworten erzeugen und die interne Energiefunktion verwenden, um die mit der niedrigsten Energie selbst zu überarbeiten und auszuwählen, was auf die höchste Kompatibilität hinweist. Dieser Leistungsschub ist bei OD-Aufgaben (Out-of-of-Distribution) am ausgeprägtesten-Projekte, die sich von den Trainingsdaten unterscheiden. Durch die längere Überlegung von Inferenz verbesserte EBTs die Leistung der Sprachaufgabe um bis zu 29%. Dies deutet darauf hin, dass der iterative Prozess es ihnen ermöglicht, in neuartigen Situationen, in denen Standardmodelle möglicherweise auf fehlerhafte Musteranpassungen beruhen könnten, robuster zu gestalten. Das Training dieser Modelle erfordert derzeit zwischen 3,3 und 6,6-mal mehr Gleitkommaoperationen (FLOPs) als Standardtransformatoren. Dieser wesentliche Overhead ist nicht nur ein theoretisches Problem. Es stellt ein erhebliches Hindernis für die Akzeptanz dar und beschränkt die EBT-Forschung und-entwicklung möglicherweise nur auf die am besten finanzierten akademischen Labors und große technische Unternehmen mit enormen Rechenressourcen. Im Gegensatz zum einzelnen Vorwärtspass eines Standardmodells umfasst jeder Verfeinerungsschritt in einem EBT komplexe Gradientenberechnungen, um die Richtung des nächsten „Gedanken“ zu bestimmen. Dieser Prozess, bei dem die Derivate zweiter Ordnung (oder effiziente Näherungen wie Hessian-Vektorprodukte) berechnet werden müssen, ist grundsätzlich intensiver. Das Team erkennt an, dass dies ein wichtiger Bereich für die künftige Optimierungsarbeit ist, da es für den praktischen Einsatz unerlässlich ist. Dies ist ein Bruchteil der Größe der größten KI-Systeme von heute, die häufig Hunderte von Milliarden Parametern überschreiten. Das Skalieren einer Architektur nach Größenordnungen ist notorisch schwierig und zeigt oft unvorhergesehene Herausforderungen wie Ausbildung von Instabilitäten oder Energielandschaften, die zu komplex werden, um effektiv zu navigieren. Daher bleibt eine offene Frage, ob die in diesem kleineren Maßstab beobachteten Leistungsvorteile, wenn sie auf Grenzmodelle angewendet werden, oder sogar verstärken wird. Die Antwort hängt wahrscheinlich von der Anwendung ab. Bei wissenschaftlichen oder analytischen Aufgaben mit hohen Einsätzen kann der Preis gerechtfertigt sein, aber für die Verwendung der allgemeinen Nutzung bleibt die Kosten-Nutzen-Analyse ein kritisches und ungelöstes Problem. Mehrere Unternehmen stellen diese Herausforderung aus verschiedenen Blickwinkeln an und unterstreichen die kritische Notwendigkeit, die immensen Kosten mit großem Maßstab zu senken. Compactifai von Multiversum komprimiert das statische Modell selbst. Sakanas NAMMS optimieren den dynamischen KV-Cache während der Inferenz. Bamba von IBM verwendet eine Hybridarchitektur, um die Sequenzverarbeitung zu beschleunigen. Anstatt nur ein fertiges Modell oder sein Gedächtnis zu optimieren, integrieren EBTs einen „Denken“-Prozess direkt in die Bildung jeder Vorhersage, wodurch sich von Grund auf eine bessere Verallgemeinerung und Argumentation anstrebt. Sein CEO, Enrique Lizaso Olmos, bemerkte:”Die vorherrschende Weisheit ist, dass schrumpfende LLMs mit Kosten verbunden sind. Multiversum verändert das.”In der Zwischenzeit zielt das Bamba-Modell von IBM die Inferenzgeschwindigkeit ab. Andere Innovationen wie das Gedächtnisoptimierungssystem von Sakana AI zielen ebenfalls darauf ab, Transformatoren effizienter zu gestalten. Die Forscher von Sakana stellten fest, dass „die Evolution die Nichtunterscheidbarkeit unserer Speicherverwaltungsoperationen inhärent überwindet, die binäre„ Erinnerungs-“oder„ Vergessen “-Egebnisse umfassen. Wenn die Modelle wachsen, rast die Branche, um nachhaltige Wege zu finden, um sie zu trainieren und einzusetzen. Die EBT-Forscher glauben, dass ihre Arbeit ein wesentlicher Bestandteil dieser Zukunft ist und zu dem Schluss kommt, dass „EBTs ein vielversprechendes neues Paradigma für die Skalierung der Lern-und Denkfähigkeiten von Modellen sind.