deepseek aiが最近リリースされた fire-flyerファイルシステム(3fs)オープンソースとして、ハイスループットのためにエンジニアリングされているgish defuments defuments defermentionのために特別にエンジニアリングされた分散ストレージソリューションを提示します。 an mitライセンス、リリースは、ディープシークの2月下旬/3月上旬の一部として発生しました
最新のSSDとRDMAネットワークを活用するように明示的に設計された3FSは、潜在的に数百のノードから標準ファイルシステムインターフェイスを介してアクセス可能な統一プールにストレージリソースを集約することを目指しています。 deepseekのデザインノート、これにより、ペタバイテスカルの類を描くために、ピタバイテットストレージを操作するためにnodeを描くためにnodeを計算するためのアプリケーションを使用することができます。高い集計パフォーマンスとフォールトトレランスを目指しながらタスク。重要なコンポーネント。メタデータ操作(ファイルの作成、ルックアップ、属性管理など)は、メタノードによって処理されます。 Crucially, these nodes are designed to be stateless, offloading durability and consistency to an external FoundationDB cluster – Apple’s open-source distributed transactional key-value store.
While powerful, FoundationDBは、特にKubernetesの統合に関して、歴史的にいくつかの運用上の複雑さを提示してきましたが、現在は展開を容易にすることを目指しています。中央のMGMTDノードは、クラスターの脳として機能し、ハートビートを介してすべてのメタノードとストレージノードの健康と場所を追跡し、データ複製レイアウトを含むシステム構成を管理します。
実際のファイルデータはストレージノードによって管理されます。これらのノードは、 leveldb を使用して、物理的なディスクのデータブロックを処理するためにカスタムの錆びた「チャンケンギン」を利用しています。インターフェイス、 io_uring 。ノード全体のデータの整合性を確保するために、3FSは crakeded queries arepriced quirpersed quirpersed
を採用しています。チェーンのレプリカと、書き込み伝播と謝辞を慎重に管理することにより、強力な一貫性を確保します。コミットされた(「クリーン」)データの読み取りは、レプリカで提供され、AIで一般的な読みやすいワークロードのパフォーマンスを向上させることができます。ターゲットワークロード
deepseekは、3FSのいくつかのAI中心のユースケースを強調表示します。データ準備のための大規模なデータセットの管理、データローダーのトレーニングのための直接ランダムアクセス(複雑なプリフェッチの必要性を削減する可能性があります)、ハイスループットの並列モデルチェックポイント、および潜在的なKvcache from sercush fimsssssのserved serce kvcache、 Deepseekが共有し、伝えられるところによれば、少なくとも2019年までの内部使用から、大規模な“fire-flyer”ai-hpc infrastructure ストレステスト中に約6.6 TIB/sに到達する集計読み取りスループット。さらに、オープンソース `smallpond` ソートツールを使用して、同社は25ノードのストレージクラスターでわずか30分間で110.5 TIBのソートを報告しました。 KVCacheの読み取りでは、ピーククライアントスループットが最大40 GIB/sとして引用されました。 a カスタムFIOエンジンはベンチマーク用に提供されます。 3FSは、アーキテクチャの効率に焦点を当てているDeepseekの焦点を示す最近のアクティビティのパターンに適合します。彼らの「オープンソースウィーク」は、最終的に8つのリポジトリが共有されました。これには、最適化された注意カーネルであるFlashmlaの4月18日のリリースが含まれます。ターゲット=”_ blank”>自己cipられた批評チューニング(SPCT)研究。 2025年3月にDeepSeekモデルの使用を確認したTech Giant Tencentは、ハードウェアの制限に適応している中国企業の幅広い傾向に注目しました。
この効率の必要性は、最先端のGPUへのアクセスに影響を与える継続的な米国の輸出管理によって増幅されます。
可用性とコミュニティエンゲージメント
3FSソースコードと、a githubリポジトリ。システムを構築するには、さまざまなLinuxディストリビューションに概説されている他の依存関係の中でも、「libfuse」、FoundationDB、およびRust Toolchainの特定のバージョンが必要です。
リポジットは、8,700星と860のフォークを蓄積し、開発者コミュニティからの強い関心を示しています。問題に遭遇するユーザーは、リポジトリの問題トラッカー。