“채팅으로 코드도…” 2세대 채팅 AI 발표한 앤트로픽

챗GPT를 개발한 오픈AI 전 직원이 설립한 AI 스타트업 앤트로픽(Anthropic)은 지난 3월 자사가 개발한 채팅 AI인 클로드(Claude)를 공개했다. 7월 11일 앤트로픽은 클로드 2세대인 클로드2를 발표하고 채팅을 통해 코드를 만드는 데모 영상도 공개하고 있다.

클로드는 개발자 콘솔 채팅 인터페이스에 API를 통해 액세스하고 다양한 대화, 텍스트 처리 작업을 수행할 수 있는 채팅 AI다. 실제로 클로드를 쓰는 사용자는 다른 채팅 AI보다 유해한 응답을 생성할 가능성이 낮으며 과거 대화를 더 오래 기억하는 것으로 평가된다.

Introducing Claude 2! Our latest model has improved performance in coding, math and reasoning. It can produce longer responses, and is available in a new public-facing beta website at https://t.co/uLbS2JNczH in the US and UK. pic.twitter.com/jSkvbXnqLd
— Anthropic (@AnthropicAI) July 11, 2023

캘리포니아대학과 카네기멜론대학이 설립한 연구 조직 LMSYS Org(Large Model Systems Org)가 5월 공개한 채팅 AI 벤치마킹 순위에선 GPT-4 기반 챗GPT에 이어 2위에 클로드가 이름을 올렸다. 클로드 사용자는 프롬프트에 최대 10만 토큰 데이터를 입력할 수 있어 수백 페이지에 걸친 문헌이나 책을 한 번에 취급할 수 있다.

7월 11일 이런 앤트로픽이 클로드 새 모델인 클로드2를 발표한 것. 앤트로픽은 클로드2 성능이 향상됐으며 더 긴 응답이 가능해졌다고 밝히고 앞으로 몇 개월 안에 더 많은 국가에서 사용할 수 있도록 노력할 것이라고 밝혔다.

Claude 2 has improved from our previous models on evaluations including Codex HumanEval, GSM8K, and MMLU. You can see the full suite of evaluations in our model card: https://t.co/fJ210d9utd pic.twitter.com/LLOuUNfOFV
— Anthropic (@AnthropicAI) July 11, 2023

클로드2는 북미 대학원 진학에 필요한 GRE 읽기와 쓰기 시험으로 응시자 상위 10%에 들어가는 점수를 획득하는 것 외에 미국 의사 면허 시험(USMLE Medical Exam)에서도 선택식 문제로 합격점을 받을 수 있다. 또 전미 공통 사법 시험(Multistate Bar Examination) 선택식 문제에선 이전 세대 클로드가 정답률 73%였지만 이를 76.5%로 끌어올렸다.

더구나 클로드2는 이전 세대보다 코딩 기술이 크게 높아졌으며 파이썬 코딩 테스트(Codex HumanEval)에서 이전 세대가 56%를 기록한 반면 클로드2는 71.2% 점수를 기록했다고 한다. 또 초등학생 수준 산수 문제인 GSM8k 정답률도 이전 세대 85.2%에서 88%로 향상됐다고 한다.

클로드2는 웹과 유료 API 모두에서 사용할 수 있지만 현재 미국과 영국 사용자에게만 배포된다. 앤트로픽 측은 자사 시스템을 시장에 배포하고 실제로 어떻게 사용하는지 이해하는 게 중요하다면서 앞으로 지속적으로 성능을 높이기 위해 노력해나갈 것이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.