챗GPT와 클로드, 제미나이 등 인간처럼 자연스러운 대화를 할 수 있는 대규모언어모델 기반 챗봇 AI가 등장하고 있다. TV 프로듀서(Maxim Lot)가 다양한 챗봇 AI에 인간용 IQ 테스트를 풀게 해 추정 아이큐를 조사한 결과 앤트로픽 LLM인 클로드3 추정 아이큐가 인간 기준치인 100을 초과했다고 보고했다.
조사에선 다양한 LLM에 노르웨이 멘사 IQ 테스트를 2번씩 받게 했고 평균 정답으로 아이큐를 추정했다. 그 결과 가장 아이큐 테스트 성적이 뛰어난 건 앤트로픽이 3월 출시한 클로드3으로 추정 아이큐는 101이었다. 보통 아이큐 기준값은 100인 만큼 클로드3은 평균 인간과 거의 동등한 셈이다. 또 앤트로픽은 클로드3은 GPTW-4를 뛰어넘는 성능이라고 어필한 바 있는데 적어도 이번 IQ 테스트 결과에선 클로드3 쪽이 GPT-4를 웃돌고 있다.
클로드3 선행 모델인 클로드1과 클로드2 추정 IQ는 각각 64, 82였다. 클로드1이 출시된 건 지난해 3월, 클로드2는 7월 출시됐다. 이런 점을 감안하면 몇 년 안에 추정 아이큐 140 정도 AI가 탄생하는 게 아닐까 예상하고 있다.
다른 순위를 살펴보면 GPT-4 추정 아이큐는 85로 2위를 차지했다. GPT-3.5는 64였다. 또 마이크로소프트 빙 코파일럿 추정 아이큐는 79점이다. 마이크로소프트는 GPTW-4를 개발한 오픈AI 기술을 사용하고 있기 때문에 GPT-4에 가까운 점수를 내는 건 놀라운 일이 아닐지 모른다는 설명이다. 또 빙 코파일럿은 입력한 문제에 대해 아스키 아트를 이용해 시각적 대답을 제시해 놀랐다고 한다.
구글 멀티모달 AI인 제미나이 추정 아이큐는 77.5였고 상위 버전인 제미나이 어드밴스드는 76이었다. 상위 버전이 더 낮은 추정 아이큐를 보였지만 이유는 불명이다.
일론 머스크가 설립한 AI 개발 기업인 xAI가 개발하는 챗봇 AI인 그록(Grok) 추정 아이큐는 68.5지만 더 자극적인 답변을 기대할 수 있는 그록 펀(Grok Fun)은 64를 나타냈다. 메타 오픈소스 LLM인 LLaMA-2 추정 아이큐는 67이다.
물론 이번 추정 아이큐는 어디까지나 IQ 테스트 성적에서 도출한 것이며 클로드3 추정 아이큐가 100을 넘었다고 해서 인간 지능을 넘었다는 걸 의미하는 건 아닌 만큼 주의가 필요하다. 관련 내용은 이곳에서 확인할 수 있다.