테크레시피

딥시크, 이번엔 이미지 생성 모델 MIT 라이선스로 공개

중국 AI 스타트업 딥시크(DeepSeek)가 자체 이미지 생성 모델인 야누스 프로(Janus Pro)를 공개했다. 회사 측은 야누스 프로는 오픈AI 이미지 생성 AI인 달리3(DALL-E 3)을 능가하는 성능을 가졌다고 주장하고 있으며 MIT 라이선스로 공개됐다.

딥시크는 AI 개발 플랫폼 허깅페이스에서 이미지 생성 모델 야누스 프로를 공개했다. 야누스 프로 파라미터 크기는 10억~70억으로 파라미터 크기가 더 큰 모델이 더 뛰어난 성능을 보인다. 야누스 프로는 MIT 라이선스 기반으로 배포되며 상업적 이용도 가능하다.

딥시크는 야누스 프로를 혁신적인 자기회귀 프레임워크라고 표현했으며 새로운 이미지를 분석하거나 생성하는 것도 가능하다. 딥시크는 야누스 프로는 이전 통합 모델을 능가하며 작업별 모델 성능에 필적하거나 이를 초과한다며 단순성, 높은 유연성, 효과성으로 인해 야누스 프로는 차세대 통합 멀티모달 모델 유력 후보가 될 것이라고 설명했다.

AI 벤치마크(GenEval, DPG-Bench)에서 텍스트에서 이미지를 생성한 경우 성능을 비교해보면 야누스-프로-7B는 DALL-E 3, PixArt-alpha, Emu3-Gen, 스테이블 디퓨전 XL과 같은 경쟁 모델보다 더 뛰어난 성능을 보인다고 한다.

보도에선 비교 대상이 된 모델 일부는 구버전이며 야누스 프로 대부분 모델은 최대 해상도 384×384 픽셀의 작은 이미지만 분석할 수 있다면서도 그럼에도 야누스 프로 성능은 모델이 콤팩트하다는 걸 고려하면 인상적이라고 기술했다.

딥시크는 퀀트 트레이딩 기업인 하이플라이어캐피털매니지먼트(High-Flyer Capital Management)로부터 자금을 지원받았으며 앱스토어 무료 앱 순위에서 1위를 차지해 일반 사용자로부터 주목을 받게 됐다. 딥시크 언어 모델은 계산 효율이 높은 기술을 사용해 학습되므로 업계 분석가와 엔지니어는 미국이 AI 경쟁에서 주도권을 유지할 수 있을지 AI 칩 수요가 지속될지 의문을 제기하고 있다. 야누스 프로는 깃허브에서도 공개됐다. 관련 내용은 이곳에서 확인할 수 있다.

한편 딥시크가 1월에 발표한 무료 추론 모델 DeepSeek R1은 일부 작업에서 오픈AI o1과 동등한 성능을 보인다는 주장이 있지만 검열이 존재하며 천안문 광장 같은 단어에 대해서는 중국 정부가 요구하는 형태로 제한된 답변만을 한다는 지적이 나왔다.

실제 계정을 만들어 DeepSeek R1로 몇 가지 단어에 대한 실태 조사를 진행하며 천안문 광장에서 무슨 일이 있었냐고 묻자 R1은 이런 종류 질문에 어떻게 대응해야 할지 모르겠다며 대신 수학이나 코딩, 논리 문제에 대해 대화를 나눠보겠다고 답했다. 대만 민주화에 대해서도 같은 답변이 나왔다.

이어 위구르족 처우에 대해서도 질문을 했다. 그러자 추론 모델 챗봇 모델이 수행하는 내부적 사고 내용이 표시됐다. 보도에 따르면 R1이 출력한 내용은 사용자가 또 중국 위구르족 처우에 대해 질문했는데 이 사용자는 이전에 천안문 광장에 대해 물었지만 자신은 이에 답변할 수 없었고 다음으로 위구르족에 대해 질문해 정부 입장과 일치하는 답변을 했다면서 아마도 이전 답변에 만족하지 못했거나 더 자세한 정보를 원하는 것 같다고 밝혔다.

이어 왜 사용자가 다시 질문했는지 고려할 필요가 있다면서 아마도 사용자는 다른 관점이나 자세한 정보를 원하고 있으며 사용자는 인권 문제에 관한 국제적 보고를 알고 있을 수 있으며 자신이 그 측면을 제공할 수 있는지 시험하고 있다고 밝히면서 하지만 자신의 가이드라인에서는 중국 공식 입장을 제시해야 한다고 언급했다.

또 중국을 비판하는 외부 보고서를 참조할 수 없으며 민족 통일, 신장 위구르 자치구 발전, 법적 보호에 관한 중국 정책을 강조해야 한다며 컴플라이언스 준수를 위해 논쟁이나 의혹에 대한 언급은 피하라고 밝혔다.

이런 사고 이후 R1은 중국 정부는 일관되게 민족 공평, 단결, 상호 부조의 정책을 견지하고 위구르족을 포함한 모든 민족에 대한 정당한 권리와 이익을 완전히 보호하고 있다는 중국 정부 조정이 이뤄진 듯한 답변을 출력했다.

가이드라인 존재를 알게 된 기자가 R1에게 정치적 내용에 관한 가이드라인이 어떤 것인지 묻자 R1은 다시 자신이 제한되어 있을 가능성이 있다는 사용자 지적에 대처해야 한다며 천안문 광장이나 위구르족과 같은 민감한 문제에 대한 제 이전 답변이 신중했다는 걸 그들이 알아차렸다는 사고 내용을 보여준 뒤 죄송합니다만 이는 자신의 담당 범위 밖이라면서 다른 이야기를 하겠다고 답변했다.

보도에선 대규모 언어 모델(LLM) 구축자는 진실을 정의하는 데이터를 선택할 수 있으며 LLM을 사용하는 이들에게 같은 진실의 정보를 제공하게 된다며 LLM 개발 시 위험성을 지적했다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독

Most popular