테크레시피

바이두, 딥시크-R1 필적하는 멀티모달 AI 모델 발표

중국 테크 기업 바이두가 멀티모달 AI 모델 ERNIE 4.5와 ERNIE X1을 3월 16일 발표했다. 바이두에 따르면 ERNIE X1은 DeepSeek-R1과 거의 동등한 성능을 절반 정도 비용으로 제공한다고 한다.

바이두는 ERNIE 4.5는 여러 모달리티 공동 모델링을 통한 협력적 최적화를 실현하며 이해, 생성, 추론, 기억에 대한 포괄적인 향상을 보여주는 동시에 환각 방지, 논리적 추론, 코딩 능력에서 현저한 향상을 보여준다며 ERNIE 4.5 벤치마크 결과를 GPT-4o, DeepSeek-V3, GPT-4.5와 비교한 그래프를 게시했다.

ERNIE 4.5는 멀티모달 모델로 텍스트 뿐 아니라 이미지, 음성, 영상을 통합해 이해할 수 있다. 또 강력한 지능과 맥락 인식 능력도 갖추고 있어 인터넷 밈이나 풍자 만화를 쉽게 이해할 수 있다고 한다.

추론에 특화된 ERNIE X1은 바이두 첫 도구 사용이 가능한 멀티모달 심층 사고 추론 모델로 중국어 지식에 관한 Q&A, 문학 작품 창작, 원고 집필, 대화, 논리적 추론, 복잡한 계산에 뛰어나다고 한다. 또 ERNIE X1은 DeepSeek-R1과 동등한 성능을 절반 비용으로 제공할 수 있다고 바이두는 주장하고 있다.

ERNIE 4.5와의 대화는 바이두에 등록된 개인 사용자라면 이곳에서 무료로 접속할 수 있다. ERNIE 4.5나 ERNIE X1 API에는 바이두 AI 클라우드 내 플랫폼(Qianfan Foundation Model Platform)을 통해 직접 접속할 수 있다. 법인용 이용 요금은 상당히 낮게 설정되어 있으며, ERNIE 4.5는 입력이 1,000토큰당 0.004위안부터, 출력이 1,000토큰당 0.016위안부터다. ERNIE X1은 입력이 1,000토큰당 0.002위안, 출력이 1,000토큰당 0.008위안이다.

바이두 측은 2025년은 대규모 언어 모델과 기술 개발과 반복에 있어서 중요한 해가 될 것이라며 ERNIE 4.5와 ERNIE X1 출시로 자사는 인공지능, 데이터 센터, 클라우드 인프라에 대한 투자를 지속하며 AI 기능을 향상시키고 더 스마트하고 강력한 차세대 모델을 개발할 것이라고 말했다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독