테크레시피

LLM 평가 지표서 처음으로 1위 빼앗긴 GPT-4

앤트로픽(Anthropic)이 3월 발표한 대규모 언어 모델(LLM)인 클로드3(Claude 3)은 20만 토큰까지 컨텍스트 길이에 대응할 뿐 아니라 단 2개 프롬프트만으로 양자 알고리즘을 설계할 수 있다는 보고도 있었다. 이번에 AI 연구자가 대규모 언어 모델에 대한 상대적 능력을 측정하기 위해 사용하는 챗봇 아레나(Chatbot Arena)에서 클로드 3 상위 모델(Claude 3 Opus)이 오픈AI 대규모 언어 모델 GPT-4 성능을 처음으로 앞섰다는 사실이 보고됐다.

챗봇 아레나는 대규모 언어 모델 성능을 비교하기 위해 LMSYS Org가 만든 벤치마크 플랫폼. 이 벤치마크는 인간 사용자를 공개 채팅에 초대해 익명 AI 모델 2종과 대화를 나눈 뒤 투표하게 하고 체스에서 사용되는 엘로 평점(Elo rating)으로 순위를 매기는 방식이다.

2023년 5월 3일 릴리스되어 5월 10일경 챗봇 아레나에 등록된 GPT-4는 등장 이후 챗봇 아레나 차트에서 줄곧 1위 자리를 지켰다. 하지만 3월 27일 업데이트에서 클로드 3 오푸스가 GPT-4 성능을 앞섰다는 사실이 보고된 것.

또 클로드 3 중 가장 저렴하고 비용 효율적인 하이쿠(Haiku)도 GPT-4 일부 모델과 맞먹는 성능을 지녔음이 밝혀졌다. LMSYS Org 측은 클로드 3 하이쿠는 사용자 선호도에서 GPT-4 수준에 도달해 모두를 놀라게 했다며 속도, 기능, 컨텍스트 길이는 시장에서 비교할 수 없다고 평가했다. 한 소프트웨어 개발자는 클로드 3이 낸 성과를 두고 왕이 죽었다고 평하기도 했다.

대규모 언어 모델을 활용해 코드 편집을 하는 에이더(Aider) 개발자에 따르면 에이더 코드 편집 벤치마크 실행 결과 클로드 3 오푸스가 GPT-4나 GPT-3.5를 포함한 오픈AI 모든 대규모 언어 모델 성능을 앞섰으며 AI를 활용한 프로그래밍에 가장 적합한 모델이라고 보고됐다. 정답률 비교에서 오픈AI 모델(gpt-4-0125-preview)은 66%였지만 클로드 3(claude-3-opus-20240229)은 68%를 기록했다.

한 AI 연구자는 고난이도 태스크에는 오푸스, 비용과 효율성을 원한다면 하이쿠 등 이용 가능한 최고 모델이 처음으로 오픈AI 외 벤더 제품이 됐다며 이 분야 상위 벤더 다양성에서 이익을 얻고 있어 이번 결과는 유익하다고 밝혔다. 한편 오픈소스 AI에 중점을 두는 메타는 2024년 중 차세대 대규모 언어 모델 LLaMA 3을 출시할 것으로 보이며 오픈AI 역시 2024년 여름 차세대 대규모 언어 모델인 GPT-5를 공개할 가능성이 보도되고 있다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독