
중국 AI 기업 딥시크가 추론 AI 모델 DeepSeek R1을 마이너 업데이트해 DeepSeek-R1-0528을 출시했다고 중국 SNS 위챗에서 발표했다. 허깅페이스 리포지토리에는 모델 설명이 포함되어 있지 않으며 모델 동작을 이끄는 내부 컴포넌트인 설정 파일과 가중치만 포함되어 있다.
마이너 업데이트된 DeepSeek-R1-0528은 파라미터 수 6850억 개로 다소 가중치가 증가했다. 업데이트 내용은 주로 추론 능력 향상으로 구글 모델처럼 깊이 추론하게 됐고 코드 생성 과제 개선, 빠를 뿐 아니라 사려 깊은, 독특한 추론 스타일, 한 태스크당 최대 30~60분이라는 장시간 사고 세션이 특징이라고 한다.
코드 생성이나 수정, 코드 실행, 출력 예측 등 광범위한 코딩에서 벤치마크를 수행하는 라이브코드벤치(LiveCodeBench)에는 이미 DeepSeek-R1-0528이 순위권에 게재되어 있다. DeepSeek-R1-0528 순위는 현재 4위로 오픈AI o4-mini(medium)와 거의 대등한 성능을 보여주는 점수가 게재되어 있다.
한편 DeepSeek-R1-0528은 MIT 라이선스 하에 공개되어 있어 누구나 무료로 모델 데이터를 입수할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.