테크레시피

대화형 채팅 AI 벤치마크, 1위는?

캘리포니아대학 버클리와 캘리포니아대학 샌디에이고, 카네기멜론대학이 협력해 설립한 오픈 연구 조직인 LMSYS Org(Large Model Systems Org)가 챗GPT와 PaLM, Vicuna 등 채팅 AI와 대규모 언어 모델 벤치마크인 챗봇 아레나(Chatbot Arena)를 공개하고 있다.

챗봇 아레나에선 LLM 기반 대화형 AI를 평가하기 위한 오픈 플랫폼인 패스트챗(FastChat)에 사용자가 초대되어 익명 모델 2종류를 상대로 대화를 실시해 어떤 쪽이 정밀도가 높았는지 투표를 실시한다. 이 투표 결과에서 체스 등에서 널리 사용되는 등급을 기반으로 한 승패와 등급이 이뤄지고 순위표가 공개된다.

지난 4월 24일부터 5월 22일까지 이뤄진 2만 7,000표분 익명 투표 데이터에 근거한 순위표를 보면 1위는 오픈AI의 GPT-4를 기반으로 한 챗GPT이며 2위와 3위는 앤트로픽(Anthropic)의 클로드-v1(Claude-v1)과 경량형 모델(Claude-instant-v1)이다. 4위는 GPT-3.5-turbo, 5위는 Vicuna-13B, 6위는 PaLM 2, 7위는 Vicuna-7B, 8위는 Koala-13B, 9위는 mpt-7B-chat, 10위는 FastChat-T5-3B다. 11위부터 17위도 확인(Alpaca-13B, RMKV-4-Raven-14B, Oasst-Pythia-12B, ChatGLM-6B, StableLM-Tuned-Alpha-7B, Dolly-V2-12B, LLaMA-13B)할 수 있다.

이번 결과에서 LMSYS Org 측은 구글 PaLM 2에 주목하고 있다. PaLM 2는 순위에선 6위를 차지하며 승률도 낮지 않다. 하지만 PaLM 2은 다른 모델에 비해 규제가 엄격한 것으로 보인다는 평가다. 예를 들어 리눅스 터미널이나 프로그래밍 언어 인터프리터를 에뮬레이트하도록 요청하면 PaLM 2는 거부했다고 한다. 또 LMSYS Org는 PaLM 2 추론 능력이 충분하지 않다고 평가했다. 중국어나 스페인어, 히브리어 등 영어 이외 질문에 답하지 않는 경향도 보였다고 한다. 영어로만 질문한 순위라면 PaLM 2는 5위지만 영어 외 질문에선 순위가 16위로 떨어졌다.

또 비교적 작은 LLM을 기반으로 한 채팅봇(Vicuna-7B와 mpt-7b-chat) 순위가 높다는 점에도 주목하고 있다. 매개변수가 2배 이상인 대형 모델과 비교해 소형 모델 성능이 유리하다는 게 밝혀진 것. 파인 튜닝 데이터세트가 중요한 경우도 있는 것으로 보인다는 평가다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사