Das KI-Startup Perplexity hat am 4. November ein Open-Source-System veröffentlicht, das es den weltweit größten KI-Modellen erstmals ermöglicht, effizient auf der Cloud-Infrastruktur von Amazon zu laufen.

In einem neuen Forschungspapier wird detailliert beschrieben, dass das System eine leistungsstarke, tragbare Alternative zu Lösungen bietet, die spezielle NVIDIA-Netzwerkhardware erfordern.

Ein technischer Durchbruch, der einen neuen Weg für die Bereitstellung massiver Modelle wie Kimi K2 auf AWS bietet.

Der Schritt erfolgt zu einem Zeitpunkt, an dem das Unternehmen aus dem Silicon Valley eskalierende Rechtsstreitigkeiten mit großen Plattformen, darunter Reddit und Amazon selbst, über seine umstrittenen Datenerfassungs-und KI-Agent-Praktiken führt und einen scharfen Kontrast zwischen seinen Open-Source-Beiträgen und seinen Geschäftsmethoden schafft.

Under the Hood: A Portable „TransferEngine“ zur Vereinheitlichung von KI-Netzwerken

Perplexity AI hat einen neuen Satz leistungsstarker Mixture-of-Experts (MoE)-Kommunikationskerne als Open-Source-Lösung bereitgestellt und den Code in einem GitHub-Repository namens „pplx-garden“ verfügbar gemacht.

Die Veröffentlichung wird begleitet von ein ausführliches Forschungspapier, das jetzt den Perplexity-Mitarbeitern Nandor Licker, Kevin Hu, Vladimir Zaytsev und Lequn Chen zugeschrieben wird und die Architektur des Systems beschreibt.

MoE-Modelle erfordern eine spärliche, dynamische Punkt-zu-Punkt-Kommunikation, um Daten zwischen verschiedenen „Experten“-Untermodellen weiterzuleiten, Ein Muster, mit dem herkömmliche kollektive Kommunikationsbibliotheken nur schlecht umgehen können.

Das Herzstück der Innovation ist eine tragbare Bibliothek namens „TransferEngine“, die für die Verwaltung von Datenübertragungen mit hohem Durchsatz und geringer Latenz mithilfe von Remote Direct Memory Access (RDMA) entwickelt wurde.

Anstatt sich auf NVIDIAs proprietäre GPUDirect Async-Technologie zu verlassen, die es einer GPU ermöglicht, direkt mit einer Netzwerkkarte zu kommunizieren, aber Hardware erstellt Lock-in entschied sich Perplexity für ein flexibleres Host-Proxy-Design.

In diesem Modell verwaltet ein dedizierter CPU-Thread Netzwerkvorgänge im Auftrag der GPU. Dies führt zwar zu einem geringen Mehraufwand, macht das gesamte System jedoch hardwareunabhängig.

Durch die Abstrahierung der Unterschiede zwischen konkurrierender Hardware ermöglicht die TransferEngine von Perplexity Entwicklern das Schreiben tragbaren, leistungsstarken Codes. Seine wichtigste Erkenntnis bestand darin, eine Abstraktion zu erstellen, die nicht von der strikten geordneten Datenbereitstellung abhängt, die durch die ConnectX-Karten von NVIDIA garantiert wird.

Seine Kompatibilität erstreckt sich jetzt auf die inhärent ungeordnete Bereitstellung des Elastic Fabric Adapter (EFA) von AWS, wodurch die beiden dominanten Netzwerk-Backbones unter einer einzigen Schnittstelle vereint werden.

Die Ergebnisse des Unternehmens sind bedeutsam, da Benchmarks zeigen, dass die neuen Kernel eine Leistung auf dem neuesten Stand erzielen.

Auf einem 64-GPU-Cluster mit NVIDIA ConnectX-7-Hardware verzeichnete das System eine kombinierte Dekodierungslatenz von nur 692 Mikrosekunden und übertraf damit den bisherigen Branchenführer DeepEP.

Ein strategischer Schritt zur Cloud-Unabhängigkeit

Mit der Veröffentlichung dieser Technologie wird ein großer Engpass bei der Bereitstellung direkt behoben Massive KI-Modelle.

Für Cloud-Kunden stellt die Möglichkeit, diese Modelle auszuführen, ohne an einen einzelnen Hardware-Anbieter gebunden zu sein, einen bedeutenden Schritt zur Kostenreduzierung und Erhöhung der Flexibilität dar.

Frontier-Modelle wie das eine Billion Parameter umfassende Kimi-K2-Modell von Moonshot AI sind zu groß für Einzelknoten-Inferenz und erfordern komplexe Multi-Knoten-Setups, die sehr empfindlich auf die Netzwerkleistung reagieren.

Bisher war zum Erreichen einer erstklassigen MoE-Leistung weitgehend ein vollständiger NVIDIA-Stack erforderlich. Paarung von GPUs mit seinen ConnectX-Netzwerkkarten.

Perplexitys Arbeit macht Amazons proprietäres EFA zum ersten Mal zu einer praktikablen, leistungsstarken Alternative.

Frühere Versuche, EFA für diese Art von Arbeitslast mit generischen Bibliotheken wie NVSHMEM zu verwenden, waren zu langsam, um für Produktionsinferenzen praktikabel zu sein.

Der Durchbruch könnte die Wirtschaftlichkeit der groß angelegten KI-Bereitstellung verändern. Es bietet Unternehmen eine leistungsstarke neue Möglichkeit, hochmoderne Open-Source-Modelle auf AWS auszuführen, ohne an ein bestimmtes Hardware-Ökosystem gebunden zu sein.

Ein solcher Schritt positioniert Perplexity nicht nur als verbraucherorientiertes Produktunternehmen, sondern auch als wichtigen Mitwirkenden der grundlegenden Infrastruktur der KI-Branche, was möglicherweise NVIDIAs eisernen Einfluss auf den Markt für Hochleistungs-KI-Hardware schwächt.

Eine doppelte Identität: Open-Source-Pionier oder Datenschaber?

Während sich das Unternehmen für seine Open-Source-Beiträge einsetzt, sieht es sich weiterhin mit einer Flut rechtlicher Anfechtungen durch Inhaltseigentümer konfrontiert.

Der Zeitpunkt dieser technischen Veröffentlichung ist besonders bemerkenswert, da sie am selben Tag eintraf, an dem Winbuzzer berichtete, dass Amazon eine Unterlassungserklärung herausgegeben hatte, in der Perplexity aufgefordert wurde, seinen Comet-KI-Agenten davon abzuhalten, Käufe auf seiner Website zu tätigen.

In einer Erklärung sagte ein Amazon-Sprecher: „Agentische Drittanwendungen wie die von Perplexity Comet hat die gleichen Verpflichtungen, und wir haben Perplexity wiederholt aufgefordert, Amazon aus dem Comet-Erlebnis zu entfernen.“

Diese Klage folgt auf eine heftige Klage, die Reddit Ende Oktober eingereicht hatte und Perplexity eines „industriellen“ Plans beschuldigte, seine Inhalte unrechtmäßig aus den Google-Suchergebnissen zu entfernen.

Reddits Rechtschef Ben Lee erklärte: „Perplexity ist ein williger Kunde von mindestens einem dieser Scraper und hat sich dafür entschieden Kaufen Sie gestohlene Daten, anstatt eine rechtmäßige Vereinbarung mit Reddit selbst einzugehen.“

Perplexity hat in seinen Rechtsstreitigkeiten stets Fehlverhalten zurückgewiesen. Sein Kommunikationsleiter Jesse Dwyer erklärte: „Unser Ansatz bleibt prinzipiell und verantwortungsvoll, da wir mit präziser KI sachliche Antworten liefern, und wir werden keine Bedrohungen der Offenheit und des öffentlichen Interesses tolerieren.“

Ein solches Konfliktmuster führt zu einem komplexen öffentlichen Image des Unternehmens. Es entwickelt gleichzeitig Tools, die die Open-Source-Community stärken, und wird gleichzeitig beschuldigt, die Daten des offenen Webs ohne Erlaubnis auszunutzen.

Das Unternehmen scheint eine doppelte Strategie zu verfolgen: mit einer Hand zum Gemeingut beizutragen und mit der anderen etwas davon zu nehmen.

Um diesem Narrativ entgegenzuwirken, hat Perplexity kürzlich einen mehrjährigen Lizenzvertrag mit Getty Images abgeschlossen und sich zur korrekten Quellenangabe für visuelle Inhalte verpflichtet.

Ein solcher Deal deutet auf die Bereitschaft hin sich an lizenzierten Partnerschaften zu beteiligen, steht jedoch in krassem Gegensatz zu den eher kontroversen Beziehungen des Unternehmens anderswo.

Eine doppelte Identität, teils Open-Source-Verfechter, teils juristischer Kämpfer, definiert die hochriskante Rolle von Perplexity.

Categories: IT Info