중국 AI 기업인 딥시크(DeepSeek)가 12월 26일 대규모 언어 모델 딥시크-V3(DeepSeek-V3)을 발표했다. 파라미터 6,710억 개를 보유한 딥시크-V3는 오픈AI 멀티모달 AI 모델인 GPT-4o에 필적하며 경우에 따라서는 GPT-4o를 능가하는 성능을 발휘한다고 한다.
이번에 발표된 딥시크-V3는 파라미터 6,710억 개를 보유하고 토큰 14조 8,000개로 훈련된 대규모 언어 모델. 보도에 따르면 딥시크-V3는 이전에 Llama 3.1 405B가 보유했던 파라미터 수 4,050억 개 기록을 넘어서 역대 최대 파라미터를 보유한 대규모 언어 모델이라고 한다.
딥시크-V3 훈련에는 엔비디아 GPU H800을 278만 8,000 GPU 시간 사용했다고 하며 557만 달러가 소요됐지만 대규모 언어 모델 사전 훈련에는 보통 수억 달러가 필요하므로 딥시크-V3 훈련 비용은 훨씬 저렴하다고 말했다.
🚀 Introducing DeepSeek-V3!
— DeepSeek (@deepseek_ai) December 26, 2024
Biggest leap forward yet:
⚡ 60 tokens/second (3x faster than V2!)
💪 Enhanced capabilities
🛠 API compatibility intact
🌍 Fully open-source models & papers
🐋 1/n pic.twitter.com/p1dV9gJ2Sd
멀티헤드 어텐션과 복수 전문 신경망을 통합하는 방식인 MoE(Mixture of Experts) 아키텍처를 결합해 설계된 딥시크-V3는 6,710억이라는 방대한 파라미터 중에서 각 태스크 처리에 최적화된 370억 파라미터만을 선택해 활성화해 계산 효율과 처리 성능 양립을 실현하고 있다.
또 딥시크-V3는 MoE 아키텍처 상에서 모델 전체 성능을 저하시키지 않고 네트워크 간 부하를 동적으로 모니터링하고 조정하는 부하 분산 전략을 채택했다. 더불어 복수 미래 토큰을 동시에 예측하는 걸 가능하게 하는 멀티토큰 예측(MTP)이라 불리는 기술을 구현했다. 이를 통해 이전 세대 딥시크-V2와 비교해 3배 빠른 초당 60토큰 생성이 가능하다.
💰 API Pricing Update
— DeepSeek (@deepseek_ai) December 26, 2024
🎉 Until Feb 8: same as V2!
🤯 From Feb 8 onwards:
Input: $0.27/million tokens ($0.07/million tokens with cache hits)
Output: $1.10/million tokens
🔥 Still the best value in the market!
🐋 3/n pic.twitter.com/OjZaB81Yrh
딥시크는 딥시크-V3에 관한 벤치마크 점수를 공개했으며 Qwen2.5 72B’, Llama 3.1 405B, Claude 3.5 Sonnet-1022, GPT-4o 0513에 필적한다고 보고됐다. 특히 HumanEval-Mul 등 프로그래밍과 CNMO 2024 같은 수학, C-Eval 등 중국어 처리에서 다른 AI 모델에 비해 두드러진 결과를 보여주는 것으로 밝혀졌다.
또 딥시크는 자사는 딥시크-R1 검증 패턴과 리플렉션 패턴을 딥시크-V3에 교묘하게 통합해 추론 능력을 대폭 향상시키는 데 성공했다고 밝혔다.
또 2025년 2월 8일까지 한시적으로 딥시크-V3 API 요금은 딥시크-V2와 동일하게 유지된다. 입력 시 가격은 100만 토큰당 0.27달러, 출력 시에는 100만 토큰당 1.10달러다. 한편 딥시크는 딥시크-V3를 오픈소스화했으며 소스코드 등은 깃허브에서 다운로드 가능하다. 관련 내용은 이곳에서 확인할 수 있다.