Google verstärkt sein Streben nach der Vorherrschaft bei der KI-Hardware. Am Donnerstag gab das Unternehmen bekannt, dass sein leistungsstärkster kundenspezifischer Chip, der Ironwood TPU, nun allgemein für seine Cloud-Kunden verfügbar ist.

Dieser neue Prozessor wurde entwickelt, um die steigende Nachfrage nach KI-Inferenz zu bewältigen befasst sich mit der Echtzeitarbeit hinter Chatbots. Um diese KI-Systeme zu unterstützen, hat Google außerdem neue, kostengünstige Axion-Prozessoren für alltägliche Computeraufgaben auf den Markt gebracht.

Dieser strategische Schritt richtet sich an wichtige Kunden wie Anthropic und verschärft Googles Herausforderung an den Marktführer Nvidia im entscheidenden Kampf um die KI-Infrastruktur.

Ironwood: Ein maßgeschneidertes Silizium-Kraftpaket für das Zeitalter der Inferenz

Um die nächste Generation von KI-Modellen voranzutreiben, setzt Google auf eine vertikal integrierte Strategie.

Im Mittelpunkt dieser Bemühungen steht die Tensor Processing Unit der siebten Generation, Ironwood, die erstmals im April vorgestellt wurde.

Der Chip ist jetzt allgemein verfügbar und wurde speziell für das entwickelt, was Google das „Zeitalter der Inferenz“ nennt, den Wandel von Trainieren Sie umfangreiche Modelle, um sie für nützliche, reaktionsfähige Interaktionen in großem Maßstab bereitzustellen.

Ironwood bietet einen erheblichen Leistungssprung und ist darauf ausgelegt, die komplexen Anforderungen sowohl beim Training als auch bei der Bereitstellung der größten KI-Modelle von heute zu bewältigen.

Laut Google bietet die neue Architektur eine 10-fache Spitzenleistungsverbesserung gegenüber dem TPU v5p-Vorgänger und mehr als viermal bessere Leistung pro Chip im Vergleich zur vorherigen Trillium-Generation.

In seiner größten Konfiguration kann ein Ironwood-System eine atemberaubende Leistung erzielen 42,5 exaFLOPS FP8-Rechenleistung, eine wesentliche Kennzahl für die Arithmetik mit geringer Genauigkeit, die moderne KI-Workloads dominiert.

Diese rohe Leistung ist mit einem Fokus auf Effizienz verbunden; Ironwood verfügt über die doppelte Leistung pro Watt wie Trillium und ist damit der bisher energieeffizienteste Chip von Google.

Google TPU Peak Flops Per Watt (Quelle: Google)

Dieses Leistungsniveau ist nur dann nützlich, wenn es skaliert werden kann, und die Architektur von Ironwood ist für einen massiven, zusammenhängenden Betrieb ausgelegt.

Ein einzelner Ironwood „Superpod“ kann bis zu 9.216 einzelne Chips verbinden, sodass sie als ein einziger, einheitlicher Chip fungieren können Supercomputer. Die Grundlage dieses Systems ist eine Hochgeschwindigkeits-ICI-Fabric (Inter-Chip Interconnect), die bis zu 9,6 Terabit pro Sekunde Bandbreite zwischen Chips bereitstellt und so eine dichte 3D-Torus-Topologie schafft.

Dieses Netzwerk ermöglicht den Chips den Zugriff auf einen riesigen, gemeinsam genutzten Pool von 1,77 Petabyte High-Bandwidth Memory (HBM) und beseitigt so Datenengpässe, die umfangreiche KI-Aufgaben lahmlegen können.

Zur Verbindung Für diese Chip-Cluster setzt Google ein dynamisches Optical Circuit Switch (OCS)-Netzwerk ein. Diese rekonfigurierbare Struktur ist sowohl für die Skalierbarkeit als auch für die Ausfallsicherheit von entscheidender Bedeutung.

Wie in der technischen Übersicht des Unternehmens ausführlich beschrieben, kann das OCS fehlerhafte Hardware optisch umgehen und neue, vollständige Schaltkreise einrichten, die nur fehlerfreie Einheiten verbinden.

Google Ironwood TPU-Architektur (Quelle: Google)

Für Kunden, die Schulungsaufgaben ausführen, die mehrere Wochen dauern können, ist diese dynamische Fehlertoleranz eine entscheidende Funktion, die kostspielige Unterbrechungen verhindert und die produktive Betriebszeit des gesamten Systems maximiert.

Entscheidend ist, dass diese fortschrittliche Hardware tief in einen gemeinsam entwickelten Software-Stack integriert ist, der auf einer Philosophie der Optimierung auf Systemebene basiert. Das Herzstück ist der Accelerated Linear Algebra (XLA)-Compiler von Google, der High-Level-Code aus beliebten Frameworks wie JAX und PyTorch in hochoptimierte Maschinenanweisungen übersetzt.

Der Compiler ist explizit für die spezielle Hardware der TPU konzipiert, einschließlich ihrer dichten Matrix Multiply Units (MXUs) und Vector Processing Units (VPUs). Durch die automatische Zusammenführung von Vorgängen in effiziente Kernel bietet XLA eine leistungsstarke „out-of-the-box“-Leistung.

Als Schlussfolgerung: Das Unternehmen hat den Stack weiter optimiert, indem es hochmoderne Serving-Engines wie vLLM auf Ironwood durch eine ermöglicht neues, einheitliches Backend, wodurch seine immense Leistungsfähigkeit für Entwickler, die Modelle in der Produktion bereitstellen, leichter zugänglich wird.

Googles Hardware-Vorstoß ist Bestandteil einer viel größeren, vielschichtigen Infrastrukturstrategie.

In jüngsten Berichten haben wir einige der ehrgeizigen Pläne von Google hervorgehoben, von einem geopolitisch strategischen KI-Rechenzentrum auf der australischen Weihnachtsinsel bis zum „Moonshot“-Projekt Suncatcher, das darauf abzielt, TPU-betriebene Rechenzentren im Weltraum zu bauen.

Das Initiativen verdeutlichen die enormen Ressourcen, die erforderlich sind, um an der Spitze der KI zu bleiben.

[eingebetteter Inhalt]

Axions Expansion: Die Neudefinition von Allzweck-Computing

Über die spezialisierten Beschleuniger für KI hinaus erfordern moderne Anwendungen ein leistungsstarkes und effizientes Rückgrat für alltägliche Arbeitslasten.

Google begegnet diesem Problem mit einer Erweiterung seines maßgeschneiderten Arm-basierten Axion-CPU-Portfolios. Das Unternehmen gab bekannt, dass seine neuen virtuellen N4A-Maschinen jetzt in der Vorschau sind, zusammen mit der bevorstehenden Vorschau von C4A Metal, seinen ersten Arm-basierten Bare-Metal-Instanzen.

Diese Prozessoren sind auf ein hervorragendes Preis-Leistungs-Verhältnis ausgelegt und übernehmen die allgemeinen Aufgaben, die KI-Anwendungen unterstützen, einschließlich Datenvorbereitung, Container-Microservices und Web-Serving.

Google Axion-CPU (Quelle: Google)

Erstes Kundenfeedback zeigt deutliche Fortschritte. Sergei Koren, Chief Infrastructure Architect bei ZoomInfo, lobte die neuen Instanzen und erklärte: „In unserer Vorschau auf die neuen N4A-Instanzen haben wir eine 60-prozentige Verbesserung des Preis-Leistungs-Verhältnisses für diese wichtigen Workloads im Vergleich zu ihren x86-basierten Gegenstücken gemessen.“

Ähnlicherweise meldete Vimeo eine 30-prozentige Leistungsverbesserung für seine Kern-Videotranskodierungs-Workload im Vergleich zu x86-basierten VMs.

Google positioniert Axion als klare und effizientere Alternative zu herkömmlichen Prozessoren.

Laut Mark Lohmeyer, VP und GM für KI und Computerinfrastruktur bei Google Cloud, „werden sie eine um 50 % höhere Leistung als vergleichbare Prozessoren der x86-Generation und eine um 60 % bessere Energieeffizienz als vergleichbare x86-basierte Instanzen haben.“

Strategische Einführungen und das KI-Wettrüsten

Anthropic ist gewaltig Das Engagement dient als starke Bestätigung für das benutzerdefinierte Silizium von Google. Das KI-Labor, Entwickler der Claude-Modellfamilie, plant, auf bis zu 1 Million TPUs zuzugreifen, was großes Vertrauen in die Fähigkeiten der Plattform sowohl für Training als auch für Inferenz signalisiert.

James Bradbury, Head of Compute des Unternehmens, erläuterte den Vorteil: „Ironwoods Verbesserungen sowohl bei der Inferenzleistung als auch bei der Trainingsskalierbarkeit werden uns dabei helfen, effizient zu skalieren und gleichzeitig die Geschwindigkeit und Zuverlässigkeit beizubehalten, die unsere Kunden erwarten.“

Dennoch findet dieses große Geschäft in einer komplexen Multi-Cloud-Realität statt. Obwohl die Partnerschaft ein bedeutender Gewinn für Google ist, wird in Berichten klargestellt, dass Anthropic eine diversifizierte Infrastrukturstrategie verfolgt und Amazon Web Services weiterhin sein primärer Cloud-Anbieter bleibt.

Sie spiegelt einen breiteren Branchentrend wider, bei dem große KI-Labore die Abhängigkeit von einem einzelnen Anbieter vermeiden, eine Strategie, die bereits zuvor beobachtet wurde, als OpenAI begann, Google Cloud als Ergänzung zu seiner Kerninfrastruktur von Microsoft Azure zu nutzen.

Inmitten eines intensiven KI-Wettrüstens zielen Googles Bemühungen um kundenspezifische Siliziumlösungen klar darauf ab, Herausforderungen zu meistern Nvidias Marktbeherrschung. Um der steigenden Nachfrage gerecht zu werden, sind enorme Investitionen erforderlich.

Um der steigenden Nachfrage gerecht zu werden, hat Google kürzlich die Obergrenze seiner Investitionsprognose für das Jahr von 85 Milliarden USD auf 93 Milliarden USD angehoben.

Ein solch immenses finanzielles Engagement zeigt, dass die Kontrolle der zugrunde liegenden Hardware mittlerweile als entscheidender Wettbewerbsvorteil angesehen wird.

Mit der Einführung sowohl der hochspezialisierten Ironwood-TPUs als auch der effizienten, universell einsetzbaren Axion-CPUs präsentiert Google ein umfassendes, gemeinsam entwickeltes Lösung.

Das Unternehmen geht davon aus, dass es der Schlüssel zum Sieg in der nächsten Phase der KI-Revolution sein wird, seinen Kunden einen optimierten und kostengünstigen Hardware-Stack vom Chip bis zum Rechenzentrum anzubieten.

Categories: IT Info