딥시크(DeepSeek)가 AI 트레이닝과 추론 성능을 효율화하는 병렬 파일 시스템인 3FS(Fire-Flyer File System)를 오픈소스 프로젝트로 출시했다.
딥시크는 2월 24일부터 다양한 AI 기술 오픈소스화를 발표하는 이벤트인 오픈소스위크(OpenSourceWeek)를 개최하고 있으며 엔비이아 호퍼(Hopper) 아키텍처 기반 GPU를 위해 개발된 MLA 디코드 커널 FlashMLA와 MoE(Mixture of Experts) 모델 트레이닝과 추론을 고속화할 수 있는 통신 라이브러리 DeepEP 등이 지금까지 발표됐다.
5일째인 2월 28일에는 SSD와 RDMA 네트워크를 염두에 두고 설계된 병렬 파일 시스템인 3FS가 발표됐다. 3FS는 FUSE(Filesystem in Userspace)를 채택한 리눅스 기반 파일 시스템으로 3FS를 자사 서버에 사용해 딥시크는 7.3TB/sec 읽기 처리량을 달성하고 있다고 한다.
🚀 Day 5 of #OpenSourceWeek: 3FS, Thruster for All DeepSeek Data Access
— DeepSeek (@deepseek_ai) February 28, 2025
Fire-Flyer File System (3FS) – a parallel file system that utilizes the full bandwidth of modern SSDs and RDMA networks.
⚡ 6.6 TiB/s aggregate read throughput in a 180-node cluster
⚡ 3.66 TiB/min…
AI 진화를 지원하는 HPC에서는 GPU가 끊임없이 무작위 트레이닝 데이터에 접근해 LLM을 학습하고 있으며 이때 데이터 읽기는 기본적으로 1회성이다. 그 중에서도 같은 데이터를 같은 순서로 반복 읽기하면 LLM 내에서 무관한 데이터가 세트로 학습되어 버리기 때문에 읽기 캐시 사용은 AI를 개발하는 데 있어 유해하기까지 하다. 읽기 캐시가 거의 도움이 되지 않는다는 점에서 3FS는 읽기 캐시를 거의 완전히 무시하고 무작위 읽기 속도를 최우선으로 하며 이 점에서 3FS는 다른 파일 시스템과는 선을 그었다고 알려져 있다.
딥시크 서버 클러스터 중 하나(Fire-Flyer 2) 운영 담당팀이 2024년 8월 발표한 3FS에 관한 논문에 따르면 딥시크는 용량이 16TB인 SSD 16대와 200Gbps 네트워크 인터페이스 카드(NIC) 2대로 구성된 스토리지 노드를 180대 운영하고 있다고 한다. 딥시크는 이 서버 클러스터에서 3FS를 사용해 6.6TiB/sec 성능을 달성했으며 스토리지 노드 25대와 컴퓨팅 노드 클러스터 50대에서 실행한 벤치마크(GraySort)에서는 8192개 파티션에 분산된 110.5TiB 데이터를 단 30분 남짓한 시간에 정렬해 평균 분당 3.66TiB 처리량을 실현했다고 한다. 관련 내용은 이곳에서 확인할 수 있다.