현재 AI 지능 수준은 어느 정도일까

최근 들어 AGI(Artificial General Intelligence)에 대한 논의가 일어나고 있다. 범용 인공지능 시대가 열리면 사회는 근본적으로 변화하고 인간이 대부분 중노동을 로봇에게 맡기면서 하루 종일 즐기는 포스트워크 시대를 맞이할 것이라는 전망이 나오기도 한다.

하지만 메타 AI 수석 과학자인 얀 르쿤(Yann LeCun) 최근 연구에 따르면 AI에게 모든 걸 맡기고 아무 것도 하지 않고 생활할 수 있게 되는 날이 오는 건 아직도 한참 남았다고 말한다. 그는 최근 공개한 논문에서 AI는 인간보다 중요한 점에서 상당히 머리가 나쁘다고 지적한다.

논문에선 AI 범용 능력을 평균 인간과 비교한 결과를 요약하고 있다. 능력을 측정하기 위해 연구팀은 일련의 질문을 만들었다. 이런 질문은 개념적으론 인간에게 쉽지만 대부분 고급 AI에 있어선 어려운 것이었다고 한다.

질문은 인간과 오픈AI 최신 대규모 언어 모델인 GPT-4에 탑재된 플러그인 버전으로 전달된다. 이를 통해 추론, 멀티모달 처리, 웹브라우징, 일반 도구 사용 능력 등 기본 능력이 필요한 실세계 질문에 대한 AI 프로그램 반응을 테스트했다.

연구팀 질문에 LLM이 답변하려면 정보를 확인하는 등 몇 가지절차를 거쳐야 한다. 예를 들어 일부 질문은 LLM에 특정 웹사이트를 방문해 해당 사이트 정보에 대한 특정 질문에 답변하도록 요구한다. 그 밖에 프로그램은 사진에서 사람 관련 정보를 검색하기 위해 일반 웹 검색도 수행해야 한다.

그 결과 LLM은 이런 일련의 작업을 잘 할 수 없었다. 실제로 연구 결과에선 대규모 언어 모델은 복잡한 실세계 문제 해결 시나리오에선 인간과 비교해 열등했다고 한다. 결과 보고서에선 인간에게 어려운 작업에 성공하는 반면 가장 능력 있는 LLM은 GAIA(Generalization in Artificial Intelligence and Agents)에서의 성적이 부진한 결과를 보였다고 밝혔디. 가장 간단한 작업에서도 GPT-4는 성공률 30%를 상회하지 않으며 가장 어려운 작업에선 0%라는 결과였다며 반면 인간 응답자 평균 성공률은 92%였다고 밝히고 있다.

LLMs obviously have *some* understanding of what they read and generate.
But this understanding is very limited and superficial. Otherwise, they wouldn't confabulate so much and wouldn't make mistakes that are contrary to common sense.

I have argued, since at least 2016, that AI…
— Yann LeCun (@ylecun) November 25, 2023

연구팀은 AGI 도래는 시스템이 이런 질문에 대해 일반 인간과 유사한 능력을 발휘할지여부에 달려 있다고 가정하고 있다며 이번 연구 결론을 내리고 있다. 가까운 미래에 AGI가 개발될 가능성에 대해 르쿤은 자신은 적어도 2016년부터 계속 AI 시스템이 자신의 행동 결과를 예측할 수 있는 내부 모델을 가져야 한다고 주장해왔다며 현재 자기 회귀형 LLM은 이런 능력과는 거리가 멀며 따라서 인간 수준 지능과는 거리가 멀다고 지적했다. 실제로 AI는 물리적 세계에 대한 이해가 부족하고 계획 능력이 부족해 AI 기능은 고양이 같은 수준이거나 그 이하라며 인간 수준과는 비교할 수 없다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.