Ang Deepseek AI kamakailan ay pinakawalan ang sunog na sunog na file (3FS) Github sa ilalim ng isang lisensya ng MIT , ang paglabas ay naganap bilang bahagi ng huling bahagi ng Pebrero/unang bahagi ng Marso 2025 href=”https://www.scmp.com/tech/big-tech/article/3253160/chinese-ai-start-deepseek-praised-open-mource-community-disclosing-technical-details-about-its”target=”_ blangko”>”Open Source Week” inisyatibo.
Ayon sa Deepseek’s Mga Tala ng Disenyo , Pinapayagan nito ang mga aplikasyon na tumatakbo sa compute node upang makipag-ugnay sa petabyte-scale storage sa isang lokalidad-oblivious na paraan, na pinasimple ang pag-unlad para sa malaking-scale na namamahagi ng isang lokalidad naglalayong para sa mataas na pinagsama-samang pagganap at pagpapaubaya ng kasalanan. Ang mga operasyon ng metadata (tulad ng paglikha ng file, lookup, at pamamahala ng katangian) ay hawakan ng mga meta node. Crucially, ang mga node na ito ay idinisenyo upang maging stateless, offloading tibay at pagkakapare-pareho sa isang panlabas na foundationdb cluster-open-source na ipinamamahagi ng transaksyonal na key-value store. Ang FoundationDB ay may kasaysayan na ipinakita ang ilang mga kumplikadong pagpapatakbo, lalo na tungkol sa pagsasama ng Kubernetes, kahit na ang mga dedikadong operator ay naglalayong mapagaan ang paglawak. Ang isang gitnang MGMTD node ay nagsisilbing utak ng kumpol, sinusubaybayan ang kalusugan at lokasyon ng lahat ng mga meta at mga node ng imbakan sa pamamagitan ng mga tibok ng puso at pamamahala ng pagsasaayos ng system, kabilang ang mga layout ng pagtitiklop ng data.
Ang aktwal na data ng file ay pinamamahalaan ng mga node ng imbakan. Ang mga node na ito ay gumagamit ng isang pasadyang, rust-based na `chunkengine` upang hawakan ang mga bloke ng data sa mga pisikal na disk, gamit ang leveldb interface, io_uring . Upang matiyak ang integridad ng data sa mga node, 3FS ay gumagamit ng chain replication with oportioned query (craq) . sa mga kadena at tinitiyak ang malakas na pagkakapare-pareho sa pamamagitan ng maingat na pamamahala ng pagsulat ng pagsulat at gumawa ng mga pagkilala. Ang mga pagbabasa ng data na nakatuon (“malinis”) ay maaaring ihatid ng anumang replika, ang pagpapabuti ng pagganap para sa mga nabasa na data na pangkaraniwan sa AI, habang binabasa ng hindi natukoy (“marumi”) na data ay nakadirekta sa mga makapangyarihang buntot na replika. Ang mga target na workload Ang mga figure na ibinahagi ng Deepseek, na naiulat mula sa panloob na paggamit ng dating hanggang sa hindi bababa sa 2019 at nasubok sa kanilang malaking sukat Fire-flyer”ai-hpc imprastraktura Mag-claim ng isang pinagsama-samang basahin ang throughput na umaabot sa humigit-kumulang na 6.6 TIB/s sa panahon ng pagsubok sa stress. Bilang karagdagan, gamit ang kanilang open-source `smallpond` Pagsunud-sunod ng tool, iniulat ng kumpanya na pinagsunod-sunod ang 110.5 Tib sa loob lamang ng 30 minuto sa isang 25-node na kumpol ng imbakan. Para sa pagbabasa ng KVCache, ang peak client throughput ay nabanggit hanggang sa 40 gib/s. A pasadyang fio engine ay ibinibigay para sa benchmarking. Sa 3FS ay umaangkop sa isang pattern ng kamakailang aktibidad na nagpapakita ng pokus ng Deepseek sa kahusayan ng arkitektura. Ang kanilang”Open Source Week”sa huli ay nagresulta sa walong mga repositori na ibinahagi, kasama na ang Abril 18 na paglabas ng FlashMLA, isang na-optimize na pansin na kernel. target=”_ blangko”> self-principled critique tuning (SPCT) Pananaliksik.
Ang diskarte na ito ay lilitaw na bahagyang hinihimok ng pangangailangan; Ang higanteng tech na si Tencent, na kinukumpirma ang paggamit ng mga modelo ng Deepseek noong Marso 2025, nabanggit ang mas malawak na kalakaran sa mga kumpanya ng Tsino na umaangkop sa mga limitasyon ng hardware. Ang pangangailangan para sa kahusayan ay pinalakas ng patuloy na mga kontrol sa pag-export ng Estados Unidos na nakakaapekto sa pag-access sa mga GPU ng paggupit.