Inmitten des Drucks des globalen Wettbewerbs und der Hardware-Supply-Kette, insbesondere über den Zugang zu Hochleistungs-GPUs, ist die KI-Effizienz für viele Technologieunternehmen zu einem zentralen Fokus geworden. Während seines Gewinns im vierten Quartal 2024 im März 2025 berichtete Tencent, seine GPU-Anforderungen zu reduzieren, indem sie die Modelle von Deepseek integrieren. Realität.”Während Tencent immer noch Hardware beschafft, wie die H20-Chips von NVIDIA für Deepseek-Integration in Apps wie WeChat, zeigt die Aussage eine strategische Abhängigkeit von Deepseeks effizienten Designs. > Deepseeks Open-Source-Push beginnt.

Verstärkung diesen Effizienz-ersten Ansatz, Deepseek kündigte eine neue Open-Source-Initiative über X an, die den Plan als das Teilen von”Small, aber aufrichtigem Fortschritt”beschreibt, erklärte, dass das Unternehmen seine Absicht, fünf Code-Repositories zu veröffentlichen, in der folgenden Woche, um die Entwicklung der Gemeinde zu veröffentlichen. Innovation.”Die erste Komponente, die unter diesem Programm vorgestellt wurde, ist FlashMla.

Wir sind ein winziges Team @Deepseek_ai Erkundung von Agi. Ab nächster Woche werden wir 5 Repos Open-Sourcing sein und unseren kleinen, aber aufrichtigen Fortschritt mit voller Transparenz teilen. href=”https://twitter.com/deepseek_ai/status/1892786555494019098?ref_src=twsrc%5ETFW”target=”_ leer”> Februar 2125

bloße use

bloße use (p> blosing action) ist vorgegeben. Decoding-Kernel, eine Variation der Aufmerksamkeitsmechanismen der Transformator, die für eine verbesserte Effizienz entwickelt wurden, speziell für die NVIDIA-Hopper-GPU-Architektur von NVIDIA abgestimmt. Erhältlich auf github unter einer MIT-Lizenz wird der Kernel von Deepseek beschrieben, als”Die Szenarien, die die Szenarien, und es werden unsere Produktionssysteme angepasst, und die FP1-Typen, und die FP1-Typen betrieben. Verwendet PAGED KVCACHE-eine Speicherverwaltungstechnik, die den Speicher für die Schlüsselwertzustände in Transformatormodellen optimiert, mit einer Größe von 64 Blocks. Dieser Ansatz ermöglicht eine flexiblere Zuweisung von Speicher im Vergleich zu zusammenhängenden Caching, wodurch der Durchsatz für gleichzeitige Anforderungen mit unterschiedlichen Sequenzlängen möglicherweise verbessert wird. 580 tflops, obwohl diese Zahlen eine unabhängige, reale Validierung für verschiedene Workloads erfordern.

optimale Leistung erfordert Berichten zufolge CUDA 12,8 oder neuer, obwohl die Kompatibilität zusammen mit Pytorch 2.0+ bei CUDA 12.3 beginnt. Die Firma schreibt Inspiration aus etablierten Projekten wie Flashattention 2 & 3 und Nvidia’s eigenes Das Github-Repository weist auch auf Community-Bemühungen hin, die Technologie für andere Hardware-Plattformen anzupassen, einschließlich derer von metax ( metax-maca/flashmla ), Moore-Threads ( moorethreads/mt-flashmla ), hygon dcu ( opendas/mlattention ), Intellifusion ( Intellifusion/Tyllm ), Deep-Spark/flasmla ) und amd Instinct ( aiter/mla ), was darauf hindeutet, dass das Interesse des Ökosystems an den zugrunde liegenden Techniken vorliegt. Als Deepseek Berichten zufolge die Entwicklungszeitleiste für sein nächstes Hauptmodell R2 beschleunigte und sich von einem geplanten Debüt im Mai 2025 auf einen potenziell früheren Start verwandelte, wie Ende Februar berichtet. QWQ-MAX-Präview). Die Verringerung dieser Marktdynamik sind regulatorische Herausforderungen, einschließlich US-Beschränkungen und Untersuchungen in Europa in Bezug auf Datenpraktiken. Darüber hinaus bleibt Deepseeks Vertrauen in die Nvidia-Hardware ein Faktor, da die kontinuierlichen Exportkontrollen der US-Exports in China die Verfügbarkeit von Chips in China beeinflussen. Parameterzahlen, ein Pfad, das durch die ressourcenintensiven Modelle von OpenAI veranschaulicht wurde, wie der riesige, teure GPT-4,5. href=”https://arxiv.org/abs/2504.02495″target=”_ leer”> Papier, die auf Arxiv verfügbar ist Architekturen, die möglicherweise einen Wettbewerbsvorteil in einer ressourcenbezogenen Umgebung schaffen.

Categories: IT Info