테크레시피

中 AI 기업, 오픈AI o1 필적 추론 모델 MIT 라이선스로 출시

중국 AI 기업인 딥시크(DeepSeek)가 1세대 추론 모델인 DeepSeek-R1-Zero와 DeepSeek-R1을 MIT 라이선스 하에 오픈소스로 공개했다. 딥시크는 특정 AI 벤치마크에서 오픈AI o1과 동등한 성능을 발휘한다고 주장했다.

DeepSeek-R1 Zero와 그 후속 모델인 DeepSeek-R1은 MoE(Mixture of Experts) 아키텍처를 채택한 DeepSeek-V3-Base를 기반으로 훈련됐으며 총 파라미터 수는 6,710억 개, 컨텍스트 길이는 128K다.

DeepSeek-R1 Zero는 기존 LLM 개발에서 일반적인 지도 학습 미세 조정(SFT)이 아닌 강화 학습을 사용해 훈련됐다. 이 방식으로 복잡한 문제를 해결하기 위한 사고의 연쇄(Chain-of-Thought)를 자발적으로 탐색하고 자체 검증과 되돌아보기, 긴 사고 연쇄 생성이 가능하다고 한다. 하지만 이 접근법에는 문장 무한 루프가 발생하기 쉽다, 출력 텍스트 가독성이 낮다, 여러 언어가 섞이기 쉽다는 문제가 있었다고 딥시크는 보고했다. 이 과제에 대처하기 위해 후속 DeepSeek-R1에서는 2단계 SFT와 2단계 강화 학습을 결합했다. SFT 단계에서는 콜드스타트 데이터라 불리는 초기 데이터를 사용하고 이후 RL 단계에서는 개선된 추론 패턴 발견과 인간 선호도 조정을 진행했다고 한다.

딥시크는 DeepSeek-R1 벤치마크 결과를 Claude-3.5-Sonnet-102, GPT-4o, DeepSeek V3, OpenAI o1-mini, OpenAI o1-1217과 비교했다. DeepSeek-R1은 영어 태스크에서 MMLU에서 90.8%, MMLU-Redux에서 92.9%, MMLU-Pro에서 84.0%를 달성해 모두 GPT-4나 Claude 3.5 Sonnet 이상 성능을 보였다.

또 수학 분야에서 특히 뛰어난 성능을 보여 MATH-500에서 97.3%, AIME 2024에서 79.8%를 달성해 해당 분야에서 최고 수준의 결과를 냈다고 딥시크는 강조했다. 코딩 능력과 관련해서는 DeepSeek-R1이 Codeforces 퍼센타일에서 96.3%, 레이팅에서 2029를 기록해 OpenAI-o1-1217에 근접한 성능을 보였다. 또 LiveCodeBench에서는 65.9%를 달성했다. 더불어 DeepSeek-R1은 중국어 태스크에서도 높은 성능을 보여 CLUEWSC에서 92.8%, C-Eval에서 91.8% 점수를 달성했다.

딥시크는 DeepSeek-R1이 전반적으로 OpenAI-o1-1217과 동등하거나 그 이상 성능을 갖고 있음이 많은 벤치마크에서 입증됐다고 주장했다. 그 중에서도 수학과 코딩 분야에서의 성능이 두드러졌으며 GPT-4나 Claude 3.5 Sonnet과 비교해도 많은 분야에서 우위를 보인 점을 강조했다.

다만 DeepSeek-R1은 중국에서 개발된 AI 시스템이다. 보도에선 DeepSeek-R1은 답변이 핵심적인 사회주의적 가치관을 구현하고 있는지를 확인하기 위해 중국 인터넷 규제 당국 벤치마크 대상이 되고 있다며 예를 들어 R1은 천안문 사건이나 대만 자치권에 관한 질문에는 답하지 않는다며 중국 모델이라는 단점을 지적했다.

DeepSeek-R1과 DeepSeek-R1 Zero, 그리고 DeepSeek-R1을 교사로 Llama와 Qwen에 증류한 모델은 MIT 라이선스 하에 제공된다. 다시 말해 저작권 표시 및 본 허가 표시만 하면 DeepSeek-R1에 대한 무상 상업적 이용과 수정, 다른 LLM 훈련을 위한 증류 등이 허용된다. 또 공개된 모델은 딥시크 공식 웹사이트에서 이용 가능하며 platform.deepseek.com에서는 오픈AI 호환 API도 제공된다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독

Most popular