테크레시피

오픈AI, o3‧o4-미니 발표‧리서치 기능 추가한 클로드

오픈AI가 새로운 AI 추론 모델인 o3와 o4-mini 출시를 발표했다. 오픈AI는 그 중에서도 o3를 오픈AI 역사상 가장 고도화된 추론 모델이라며 수학, 코딩, 추론, 과학, 시각적 이해 능력을 측정하는 벤치마크에서 기존 모델을 뛰어넘는 성능을 보였다고 강조했다.

o3는 가장 강력한 추론 모델이라는 위치를 차지하며 코드 생성, 수리 분석, 시각 정보 이해와 같은 다양한 작업에서 기존 모델을 능가하는 벤치마크 결과를 보여줬다. 예를 들어 AIME 2025에서는 도구 없는 설정에서 정답률 88.9%에 도달했으며 코드포스(Codeforces)에서는 ELO 2700대를 기록했다.

또 o3는 프로그래밍과 컨설팅 등 실무 중심 과제에서도 높은 정확도를 보였으며 o1과 비교해 중대 오류가 20% 감소했다고 한다. 그 중에서도 이미지와 도표를 포함한 문제에 대한 대응력이 강화되어 학술계 시각 벤치마크인 MMMU에서 82.9%를 달성해 SOTA 스코어를 갱신했다.

o4-mini는 파라미터 규모를 억제하면서 고속 및 저비용으로 추론할 수 있도록 최적화된 모델이다. AIME 2024와 2025에서 각각 93.4%, 92.7%라는 놀라운 점수를 기록하며 소형 모델로서는 이례적인 수준에 도달했다. 오픈AI 측은 처리 효율이 높기 때문에 이용 한도도 완화되어 대량 요청이나 실시간성을 중시하는 용도에 적합하다고 강조했다.

두 모델 개발에서는 대규모 강화학습 계산량을 늘리면 성능이 향상된다는 스케일링 법칙을 재확인하기 위해 훈련 계산량과 추론 시 사고 단계가 각각 큰 폭으로 증가됐다고 한다. 오픈AI 측은 그 결과 동일한 지연 시간과 비용 설정에서도 o1보다 높은 정확도를 실현했으며 추론 시간을 더 연장하면 성적이 계속해서 상승 곡선을 그린다는 걸 입증했다고 보고했다. 강화학습에서는 도구를 어떻게 사용할지뿐 아니라 언제 사용할지까지 학습시켰으며 o3와 o4-mini는 검색, 코딩, 파일 분석, 이미지 생성 등 도구를 목적별로 조합하고 도중에 얻은 정보를 바탕으로 계획을 수정하면서 해결책을 도출한다.

또 o3와 o4-mini가 갖춘 큰 특징은 이미지를 사용해 사고하는(Thinking with images) 점으로 텍스트와 이미지를 동등하게 취급하며 중간에 회전·확대 등 조작을 가하면서 연쇄적으로 추론하는 게 가능해졌다.

비용 성능 측면에서는 o3가 o1보다 o4-mini가 o3-mini보다 높은 비용 효율성을 보여주고 있다. 예를 들어 AIME 2025에서 o3는 더 낮은 비용으로 높은 정확도를 보여줬다.

오픈AI는 o4-mini도 o3-mini보다 높은 비용 효율성을 보였다고 보고했다. 더욱이 o4-mini는 같은 카테고리에서 소형 모델로서는 전례 없는 92.7%에 이르는 정답률을 기록했으며 대량 요청 처리나 실시간 응답에서는 o4-mini가 갖춘 높은 처리량이 효과적이라고 밝혔다.

안전성 향상을 위해 바이오 리스크, 멀웨어 생성, 탈옥 프롬프트에 관한 거부 데이터를 쇄신하고 내부 거부 벤치에서 높은 합격률을 달성했다. 또 오픈AI 측은 사람이 작성한 안전 사양을 해독하는 추론 LLM 모니터를 도입하여 바이오 리스크 관련 상호작용 99%를 감지·차단할 수 있다는 걸 확인했다고 보고했다.

o3, o4-mini, 그리고 o4-mini 파생 모델인 o4-mini-high는 챗GPT 유료 구독 플랜인 챗GPT 플러스, 챗GPT 프로, 챗GPT 팀 사용자라면 이미 선택 가능하다. 무료 사용자도 o4-mini를 일부 체험할 수 있다. API에서도 두 모델을 이용할 수 있으며 상위 버전인 o3-pro도 곧 추가될 예정이다. 관련 내용은 이곳에서 확인할 수 있다.

한편 오픈AI는 4월 16일 터미널에서 직접 실행할 수 있는 코딩 에이전트 툴인 코덱스 CLI(Codex CLI)를 출시했다. 오픈AI는 또 코덱스 CLI를 오픈소스로 공개했다.

오픈AI가 새롭게 출시한 코딩 에이전트 툴인 코덱스 CLI는 같은 날에 발표된 대규모 언어 모델 o3, o4-mini 등을 사용해 파일을 읽거나 코드를 작성하고 코드를 실행해 주는 것이다. 코덱스 CLI는 터미널에서 실행할 수 있어 로컬에서 코딩을 할 수 있다.

코덱스 CLI는 멀티모달 입력에 대응하고 있어 텍스트 뿐 아니라 스크린샷이나 이미지를 입력해 이에 맞는 코드 생성 또는 편집을 실행할 수도 있다.

오픈AI 측은 자사 목표는 AI 모델을 코드와 태스크에 직접 연결하기 위한 최소한의 인터페이스를 사용자에게 제공하는 것이라고 말했다. 또 오픈AI는 코덱스 CLI 이용 촉진을 위해 코덱스 CLI와 오픈AI AI 모델을 사용하는 프로젝트 개발자에게 최대 2만 5,000달러 분량 API 크레딧을 제공하는 프로그램을 실시할 걸 밝혔다.

또 코덱스 CLI는 오픈소스로 공개되어 있으며 깃허브에서 소스 코드를 확인할 수 있다. 오픈AI에 따르면 코덱스 CLI는 향후 GPT-4.1도 지원할 예정이라고 한다. 관련 내용은 이곳에서 확인할 수 있다.

그 밖에 오픈AI가 AI 코딩 도구를 개발하는 스타트업 윈드서프(Windsurf)를 30억 달러에 인수하는 협의를 진행하고 있다고 보도됐다.

개발자 바룬 모한 등은 2021년 AI 코딩 도구를 개발하는 코디움(Codeium)을 설립했다. 이후 윈드서프로 사명을 변경했다. 보도에 따르면 윈드서프 연간 경상 수익(ARR)은 4,000만 달러에 달한다고 한다. 또 지금까지 여러 벤처캐피털(Greenoaks Capital, General Catalyst, Founders Fund)로부터 2억 4,300만 달러를 조달했으며 지난 2월에는 기업 가치가 28억 5,000만 달러에 도달했다고도 보도됐다. 이런 윈드서프에 대해 오픈AI가 30억 달러에 인수를 제안하고 있다고 보도됐다. 만일 이 거래가 성사된다면 오픈AI에게는 지금까지 최대 규모 인수가 될 것이라고 한다.

한편 오픈AI와 윈드서프는 인수를 위한 협의에 대해 밝히지 않고 있지만 오픈AI 최고 제품 책임자인 케빈 웨일은 4월 16일 윈드서프를 극찬하는 동영상을 게시했다.

보도에선 윈드서프 인수가 성사될 경우 오픈AI는 AI를 활용한 코딩 어시스턴트 시장에서의 치열해지는 경쟁에 대처할 수 있게 될 가능성이 있다며 오픈AI는 앤트로픽이나 마이크로소프트 등 기업과 더 직접적으로 경쟁하게 될 것이라고 말했다. 관련 내용은 이곳에서 확인할 수 있다.

앤트로픽이 채팅 AI 클로드(Claude)에 사용자 지시에 따라 상세한 조사와 분석을 수행하는 새로운 기능인 리서치(Research)를 도입했다고 발표했다. 또 클로드가 G메일과 구글 캘린더를 포함한 구글 워크스페이스와 통합될 수 있게 됐다고도 발표됐다.

앤트로픽이 이번에 발표한 리서치는 사용자 질문에 대해 다양한 각도에서 조사를 수행하고 검색을 실행하는 것이다. 앤트로픽은 리서치를 사용하면 미해결 질문을 체계적으로 처리할 수 있게 되며 포괄적인 고품질 답변이 몇 분 안에 제공된다고 어필하고 있다. 또 생성 결과 투명성을 높이기 위해 답변에는 그 출처도 표시된다고 한다.

리서치는 클로드 맥스 플랜, 팀 플랜, 엔터프라이즈 플랜에 가입한 미국, 일본, 브라질 사용자를 대상으로 초기 베타 버전으로 제공되고 있다. 앤트로픽은 또 클로드가 기존 구글 문서 외에도 G메일과 구글 캘린더와 통합될 수 있게 됐다고도 발표했다. 구글 워크스페이스와 연계해 클로드가 사용자 이메일을 검색하거나 문서를 확인하거나 캘린더에 등록된 일정을 확인하는 게 가능해진다.

구글 워크스페이스와 연계한 상태에서 리서치를 사용해 이메일 이력이나 캘린더, 영업처 최신 정보를 검색해 상세한 브리핑 문서를 작성하거나 과거 학습 교재나 노트를 분석해 보다 개인화된 학습 계획을 작성하는 등 작업이 가능해진다.

또 클로드 엔터프라이즈 관리자는 리서치와 구글 워크스페이스 연계 기능 외에도 구글 문서 카탈로그화도 이용 가능하다. 이는 조직 내에서 사용되는 구글 문서 특수 인덱스를 활용해 긴 문서에 묻혀 있거나 여러 파일에 흩어져 있는 정보를 검색할 수 있게 하는 것이다. 앤트로픽은 클로드 엔터프라이즈에서 제공되는 고급 보안으로 조직 기밀 정보를 유지하면서 정확한 답변을 제공하는 게 가능하다고 어필했다.

한편 구글 워크스페이스와의 연계 기능은 클로드 유료 플랜에 가입한 모든 사용자가 베타 버전으로 이용 가능하다. 또 엔터프라이즈 플랜 관리자는 개별 사용자가 계정을 연결하기 전에 도메인 전체에서 구글 워크스페이스 접근을 활성화해야 한다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독