DeepSeek AI släppte nyligen sin Fire-flyer filsystem (3FS) som öppen källa, presenterade en distribuerad lagringslösning specifikt konstruerad för high-througput, low-latency-krav Github under en mit licens , utsläppet inträffade som en del av Deepseeks slutet av februari/början av mars 2025 “Open Source Week”
utformade uttryckligen för att utnyttja moderna SSD: er och RDMA-nätverk, 3FS syftar till att samla lagringsresurser från potentiellt hundratals noder i en enhetlig pool som är tillgänglig via ett standardfilsystemgränssnitt. Enligt DeepSeeks Designnoter , detta tillåter applikationer som körs på datorer för att interagera med petabyte-scale-lagring av en lokalisering-Simplying för stora och med att göra det stora för att interagera med petabyte-scale-lagring aiming for high aggregate performance and fault tolerance. The 3FS architecture relies on four key components. Metadata-operationer (som filskapande, sökningar och attributhantering) hanteras av meta noder. Av avgörande betydelse är dessa noder utformade för att vara statslösa, lossning av hållbarhet och konsistens till en extern FoundationDB cluster-Apple’s Open-Source-distriktet FoundationDB har historiskt presenterat vissa operativa komplexiteter, särskilt när det gäller Kubernetes-integration, även om dedikerade operatörer nu syftar till att underlätta distributionen. En central MGMTD-nod fungerar som klusterens hjärna och spårar hälsan och platsen för alla meta-och lagringsnoder via Heartbeats och hanterar systemkonfiguration, inklusive datareplikationslayouter. Faktiska fildata hanteras av lagringsnoderna. Dessa noder använder en anpassad, rostbaserad `chunkengine’för att hantera datablock på fysiska skivor, med som standard för lagring av chunk metadata locally. Gränssnitt, io_uring . För att säkerställa dataintegritet mellan noder använder 3FS Chain Replication with Apportioned Queries (craq) Chain Replication with Apportioned Queries (craq) Chain Replication with Apportioned Queries (craQue i kedjor och säkerställer stark konsistens genom att noggrant hantera skrivförökning och begå erkännanden. Läsningar av engagerade (“rena”) data kan betjänas av varje replik, vilket förbättrar prestanda för lästunga arbetsbelastningar som är vanliga i AI, medan läsningar av obemärkt (“smutsiga”) data är riktade till den auktoritativa svansen. Målarbetsbelastningar
Deepseek belyser flera AI-centrerade användningsfall för 3FS: Hantera stora datasätt för dataförberedelser, möjliggöra direkt slumpmässig åtkomst för utbildningsdataloaders (potentiellt reducera behovet av komplexa förmåner), hög-throughput-parallell modellcheckning, och tjänar inspelning från lägre, high-cape-kapacitet Denna siffra jämförs gynnsamt med riktmärken som citeras för andra system som CEPH på olika hårdvarukonfigurationer. Dessutom, med sin öppen källkod `smallpond` Sorteringsverktyg rapporterade företaget att sortera 110,5 tib på drygt 30 minuter på en 25-nodlagringskluster. För KVCache-läsningar citerades toppklientens genomströmning som upp till 40 GIB/s. A Anpassad fiomotor tillhandahålls för benchmarking. av 3FS passar in i ett mönster av den senaste aktiviteten som visar Deepseeks fokus på arkitektonisk effektivitet. Deras”Open Source Week”resulterade i slutändan i att åtta förvar som delades, inklusive den 18 april-utgåvan av Flashmla, en optimerad uppmärksamhetskärnor. Detta följde den 24 mars öppna utgåvan av Deepseek-v3-0324-modellen och aprilpublikationen som beskriver deras Självpriscipled Critique Tuning (SPCT) Forskning. Denna strategi verkar delvis drivas av nödvändighet; Tech Giant Tencent, som bekräftar dess användning av Deepseek-modeller i mars 2025, noterade den bredare trenden bland kinesiska företag som anpassar sig till hårdvarubegränsningar. tencent uppgav på deras senaste intäkter:”Kinesiska företag är allmänt prioriterade effektivitet och utnyttjande. Detta behov av effektivitet förstärks av pågående amerikanska exportkontroller som påverkar tillgången till banbrytande GPU: er. 3FS-källkoden, tillsammans med build-instruktioner och dokumentation som en Github Repository . Att bygga systemet kräver specifika versioner av `libfuse’, foundationDB och Rust Toolchain, bland andra beroenden som beskrivs för olika Linux-distributioner. Förvaret fick snabbt dragkraft efter att det släpptes, och samlade över 8 700 stjärnor och 860 gafflar, vilket indikerar starkt intresse från utvecklarsamhället. Användare som möter problem riktas till förvarets Problem tracker .
Inside 3FS: Architecture and Consistency Mechanisms
tillgänglighet och samhällsengagemang
Categories: IT Info