테크레시피

“코딩‧추론 능력 강화” 클로드4 발표한 앤트로픽

앤트로픽이 5월 22일 개최한 자사 개발자 대상 이벤트(Code with Claude)에서 차세대 AI 모델인 클로드 4(Claude 4) 패밀리 일부인 클로드 오푸스 4(Claude Opus 4)와 클로드 소넷 4(Claude Sonnet 4)를 발표했다. 두 모델 모두 프로그래밍 작업에서 뛰어난 성능을 발휘하도록 조정되어 있으며 코드 작성 및 편집에 적합하다고 밝혔다.

클로드 오푸스 4는 세계 최고 수준의 코딩 성능을 자랑하는 모델로 위치하며 복잡하고 장시간에 걸친 작업이나 에이전트 워크플로에서 지속적으로 높은 성능을 발휘한다. 클로드 오푸스 4는 벤치마크(SWE-bench Verified)에서 72.5%, 터미널-벤치(Terminal-bench)에서 43.2%라는 뛰어난 점수를 기록했으며 수천 단계를 요구하는 집중 작업을 수 시간 동안 지속 실행할 수 있는 능력을 갖추고 있다. 앤트로픽은 클로드 오푸스 4가 코딩과 복잡한 문제 해결에 뛰어나며 최첨단 에이전트 제품을 뒷받침하는 기술로 평가받고 있다고 어필했다.

한편 클로드 소넷 4는 이전 모델인 소넷 3.7을 대폭 개선한 것으로 SWE-bench에서 72.7%라는 점수를 달성했다고 한다. 클로드 소넷 4는 성능과 효율성의 균형이 중시되며 내외부 다양한 용도에 대응할 수 있는 실용성을 겸비한 게 특징이다. 또 구현에 대한 보다 세밀한 제어를 가능하게 하는 조작성도 향상됐다.

코딩이나 추론 능력, 멀티모달 기능, 에이전트 작업에서 클로드 4는 전세대와 비교해 터미널 조작이나 커맨드라인 작업 등 에이전트 성능(Agentic tool use)과 수학 해결 추론 능력(High school math competition) 점수가 향상됐다.

보도에선 모델 코딩 능력을 평가하는 SWE-bench Verified에서 클로드 오푸스 4는 구글 제미나이 2.5 프로나 오픈AI o3, GPT-4.1을 앞서고 있지만 멀티모달 평가인 MMMU나 박사과정 수준 생물학·물리학·화학 관련 문제를 망라한 테스트(GPQA Diamond)에서는 오픈AI o3를 앞서지 못하고 있다고 지적했다.

클로드 4는 즉각적인 응답과 깊은 추론을 위한 확장 사고라는 2가지 모드를 가진 하이브리드 모델로 설계됐다. 그 중에서도 도구 사용을 동반한 확장 사고라는 기능을 통해 클로드는 추론과 웹 검색 등 도구 사용을 번갈아 수행함으로써 보다 질 높은 답변을 제공할 수 있게 됐다.

기존 AI 모델은 질문을 받으면 곧바로 답을 생성하지만 이 확장 사고에서는 클로드가 보다 깊고 복잡한 추론을 수행하기 위해 시간을 들여 생각하는 과정을 거칠 수 있다. 인간이 어려운 문제에 직면했을 때 한번 멈춰서 차근차근 생각을 정리하는 것과 비슷하다.

도구 사용을 동반한 확장 사고는 추론 도중에 웹 검색 등 도구를 사용할 수 있다. 다시 말해 생각하면서 필요한 정보를 조사하고 그 정보를 바탕으로 다시 사고를 심화시키는 보다 인간다운 문제 해결 접근법이 가능해졌다는 것이다. 이 기능을 통해 클로드 4는 복잡한 질문이나 다단계 추론이 필요한 문제에 대해 보다 질 높은 답변을 제공할 수 있게 됐다고 한다.

더 나아가 클로드 4는 여러 도구를 동시 병행으로 사용할 수 있게 됐다. 지금까지는 하나씩 도구를 순서대로 사용했지만 이번 개선을 통해 효율적이고 빠른 작업이 가능해졌다. 또 지시에 대한 순종성이 대폭 개선되어 기존 모델과 비교해 작업 완료 시 지름길이나 빠져나갈 구멍을 사용하는 행동이 65% 감소했다.

이에 더해 메모리 기능이 대폭 향상됐다. 개발자가 로컬 파일에 대한 접근을 제공한 경우 클로드는 중요한 사실을 추출하고 저장해 연속성을 유지하며 시간이 지남에 따라 지식을 구축할 수 있게 됐다. 클로드 오푸스 4에서는 이 메모리 기능이 극적으로 개선되어 메모리 파일을 생성·유지해 중요한 정보를 저장하는 기술에 뛰어나다고 한다. 이를 통해 장기 작업 인식, 일관성 유지, 에이전트 작업에서의 성능 향상이 실현되고 있다.

앤트로픽은 클로드에게 포켓몬스터를 플레이시키는 벤치마크를 실시했으며 클로드 오푸스 4가 포켓몬을 플레이하면서 메모를 작성하고 자신의 게임플레이 개선에 노력했다고 보고했다.

가격 설정은 기존 오푸스, 소넷 모델과 같다. 클로드 오푸스 4는 입력 100만 토큰당 15달러, 출력 100만 토큰당 75달러, 클로드 소넷 4는 입력 100만 토큰당 3달러, 출력 100만 토큰당 15달러가 된다. 이들 모델은 앤트로픽 API, 암존 베드록(Amazon Bedrock), 구글 클라우드 버텍스AI에서 이용할 수 있다. 또 클로드 오푸스 4와 클로드 소넷 4는 웹·iOS·안드로이드 버전 클로드 앱에서 이용할 수 있다. 클로드 오푸스 4는 유료 플랜이면 접근 가능하며 클로드 소넷 4는 무료 플랜에서도 이용할 수 있다. 다만 클로드 4는 클로드 3.7보다 입력 제한이 엄격해진 것으로 보인다.

앤트로픽은 또 클로드 4 발표와 함께 지금까지 연구 프리뷰로 제공해온 클로드 코드(Claude Code) 일반 제공을 시작한다고 밝혔다. 클로드 코드 핵심 기능으로 VS Code와 젯브레인스(JetBrains) IDE용 새로운 베타 확장 기능이 제공된다. 이를 통해 클로드가 제안하는 편집 내용이 파일 내에 인라인으로 표시되며 익숙한 에디터 내에서의 검토와 추적이 효율화된다. 설치도 간단하며 IDE 터미널에서 클로드 코드를 실행하기만 하면 완료된다고 한다. 더 나아가 깃허브 액션스(GitHub Actions)를 통한 백그라운드 작업 지원도 추가됐다.

이에 더해 확장 가능한 클로드 코드 SDK도 제공되어 개발자는 동일한 코어 에이전트를 사용해 독자 에이전트나 애플리케이션을 구축할 수 있게 된다.

앤트로픽 API에도 4가지 새로운 기능이 릴리스됐다. 코드 실행 도구, MCP 커넥터, Files API, 프롬프트를 최대 1시간 캐시하는 기능이다. 이를 통해 개발자는 보다 강력한 AI 에이전트를 구축할 수 있게 된다.

첫 번째는 코드 실행 도구. 이를 통해 클로드는 샌드박스 환경에서 파이썬 코드를 실행해 계산 결과나 데이터 시각화를 생성할 수 있게 됐다. API 호출 내에서 직접 데이터세트 로딩, 탐색적 차트 생성, 패턴 특정, 실행 결과를 바탕으로 한 반복적인 출력 개선 등이 가능해진다.

코드 실행 도구는 금융 모델링, 과학 계산, 비즈니스 인텔리전스, 문서 처리, 통계 분석 등 용도에 적합하다고 하며 조직은 하루 50시간 무료 사용 한도를 갖고 추가 사용을 하면 시간당 0.05달러가 과금된다.

2번째 기능은 MCP 커넥터다. 이를 통해 개발자는 클라이언트 코드를 작성하지 않고도 클로드를 MCP 서버에 연결할 수 있게 됐다. 이전에는 MCP 연결을 처리하기 위한 클라이언트 하네스 구축이 필요했지만 앤트로픽 API가 연결 관리, 도구 검출, 오류 처리를 모두 자동으로 처리하게 된다. 자피어나 아사나 등 기존 MCP 서버와의 통합도 가능하다.

3번째 기능은 Files API로 클로드 문서 저장 및 접근 방법이 간소화된다. Files API는 코드 실행 도구와도 통합되어 클로드가 코드 실행 중에 업로드된 파일에 직접 접근해서 처리하거나 응답 일부로 차트나 그래프 등 파일을 생성할 수 있게 된다.

4번째 기능은 확장 프롬프트 캐싱이다. 개발자는 표준 5분 TTL(Time To Live)이나 추가 비용으로 1시간 TTL을 선택할 수 있게 됐다. 확장 캐싱을 통해 고객은 광범위한 배경 지식과 예시를 클로드에 제공하면서도 긴 프롬프트 비용을 최대 90%, 지연시간을 최대 85% 줄일 수 있다. 이를 통해 다단계 워크플로를 처리하거나 복잡한 문서를 분석하거나 다른 시스템과 연계하는 경우 등에서 에이전트가 장시간에 걸쳐 컨텍스트를 유지하는 게 실용적이 된다.

이들 기능은 모두 앤트로픽 API 퍼블릭 베타 버전에서 이용할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사