테크레시피

딥시크, LLM 추론 능력 강화 방법 발표

DeepSeek-R1 등을 개발하는 중국 AI 스타트업인 딥시크(DeepSeek) 연구자가 일반적인 대규모 언어 모델(LLM) 추론 능력을 향상시키는 새로운 접근법을 개발하고 심사 전 논문을 프리프린트 서버인 아카이브(arXiv)에 공개했다.

논문에 따르면 딥시크는 칭화대학 연구자와 공동으로 생성적 보상 모델링(Generative Reward Models: GRM)과 자기 원리 비판 튜닝(Self-Principled Critique Tuning: SPCT)이라고 불리는 방법을 결합한 기술을 개발했다. SPCT는 딥시크 연구자가 GRM을 기반으로 개발한 새로운 접근법. 이 기술을 사용해 명확한 고품질 보상을 설정해 다양한 입력에 유연하게 대응할 수 있다고 한다. 이에 따라 추론 시간이 대폭 단축되어 더 나은 결과를 더 빠르게 제공하게 된다고 한다.

새로운 기술을 탑재한 DeepSeek-GRM이라는 모델을 테스트한 결과 여러 벤치마크에서 높은 점수를 기록했다고 한다. 딥시크는 GRM 모델을 오픈소스로 공개할 예정이지만 시기는 밝히지 않았다. 딥시크 측은 지난 1월 추론 모델인 DeepSeek-R1을 발표해 큰 주목을 받았다. 차세대 모델인 DeepSeek-R2는 5월까지 등장할 가능성이 있다고 보도되고 있다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독