
앤트로픽(Anthropic)이 클로드 3.7 소넷(Claude 3.7 Sonnet)을 발표했다. 앤트로픽에 따르면 클로드 3.7 소넷은 시장 첫 하이브리드 추론 모델로 벤치마크에서 오픈AI o1과 o3-미니, 딥시크-R1을 뛰어넘는 성능을 보였다.
앤트로픽이 말하는 하이브리드 추론 모델이란 질문에 즉시 답하는 실시간 응답과 더 많은 추론을 거친 숙고된 응답 2가지를 모두 제공할 수 있는 모델을 의미한다. 사용자는 AI 모델 추론 기능을 활성화할지 여부를 선택할 수 있으며 클로드 3.7 소넷에게 즉시 답변하게 할지 아니면 숙고하게 할지 선택할 수 있게 된다.
구체적으로는 표준(Normal) 모드와 확장(Extended) 2종류가 마련되어 있다. 표준 모드는 클로드 3.7 소넷 업그레이드 버전이다. 확장 모드는 답변 전에 추론을 반복하기 때문에 수학이나 물리학 문제 해결, 코딩 등 복잡한 작업에서의 성능이 향상된다고 한다.
또 API를 통해 클로드 3.7 소넷을 사용할 경우 토큰 값을 지정하는 게 가능해져 속도와 비용, 요구하는 답변 품질에 따라 사용자가 자유롭게 조정할 수 있게 된다.
더불어 추론 모델 개발에 있어 수학과 컴퓨터 과학 경쟁 문제에 대한 최적화를 조금 억제하고 그 대신에 기업이 실제로 LLM을 사용하는 상황을 더 잘 반영하는 현실 세계 작업에 중점을 옮겼다고 앤트로픽은 밝혔다.
소프트웨어 엔지니어링 벤치마크(SWE-bench Verified) 결과를 비교해보면 클로드 3.7 소넷은 지난해 10월 모델인 클로드 3.5 소넷이나 오픈AI o1, o3-미니, 딥시크-R1과 비교해도 높은 정확도를 기록했다. 대화형 AI 에이전트의 더 현실적인 작업에서의 성능을 평가하는 벤치마크(TAU-bench)에서도 마찬가지 결과를 보였다.
또 앤트로픽은 클로드 3.7 소넷 에이전트 성능을 측정하기 위해 게임보이 포켓몬스터 레드를 플레이하게 하는 벤치마크를 실시했다. 이 벤치마크는 AI 모델에 화면 인식과 기본적인 조작을 할 수 있게 해 포켓몬을 플레이할 수 있게 한 다음 어디까지 공략할 수 있는지를 조사하는 것. 클로드 3.7 소넷은 최대로 쿠치바시티에 도착하여 체육관 관장 마치스를 격파하는 데까지 성공했다고 한다.
아직 클로드 3.7 소넷이 체육관 배지 3개를 획득하는 데 얼마나 많은 계산이 필요했는지 또 각각에 얼마나 많은 시간이 걸렸는지는 불명확하다. 다만 앤트로픽은 마지막 체육관 관장인 마치스에 도달할 때까지 클로드 3.7 소넷이 3만 5,000번 액션을 실행했다고 보고했다.

앤트로픽은 연구 프리뷰로 AI 에이전트 탑재 코딩 도구인 클로드 코드(Claude Code)를 출시했다. 클로드 코드는 코드 검색 및 읽기, 파일 편집, 테스트 생성 및 실행, 깃허브에 커밋 및 푸시, 명령줄 도구 사용 등이 가능한 도구다.
클로드 코드는 어디까지나 개발 중이지만 앤트로픽은 “이미 자사 팀에게 디버깅과 리팩토링에 없어서는 안 될 게 되고 있다고 말했다. 일반적인 수작업으로 45분 이상 걸리는 작업을 패스 한 번으로 완료해 개발 시간과 오버헤드가 감소했다고 한다. 앤트로픽의 사용 상황에 기반해 클로드 코드는 앞으로도 지속적으로 개선될 예정이다.
앤트로픽은 클로드 3.7 소넷과 클로드 코드는 인간 능력을 진정으로 강화할 수 있는 AI 시스템을 향해 나아가는 중요한 한 걸음이 될 것이라며 깊이 추론하고 자율적으로 작업하며 효과적으로 협력하는 능력으로 AI는 인간이 달성할 수 있는 걸 풍부하게 하고 더 확장된 미래에 가까워질 것이라고 말했다.
한편 클로드 3.7 소넷은 모든 플랜(Free, Pro, Team, Enterprise) 및 앤트로픽 API, 아마존 베드록(Amazon Bedrock), 구글 클라우드 버텍스 AI에서 이용할 수 있다. 또 확장 모드는 클로드 모든 유료 플랜에서 이용 가능하다. API 이용의 경우 가격은 입력 토큰 100만 개당 3달러, 출력 토큰 100만 개당 15달러다. 관련 내용은 이곳에서 확인할 수 있다.