“현재 AI 언어 모델 산수 문장제 추론 능력은 초등학생 미만”

이석원 기자

2024.10.15

오픈AI GPT-4 등 대규모 언어 모델(LLM)을 기반으로 한 AI는 자연스러운 문장을 생성하거나 다양한 과제를 해결하는 등 고도의 광범위한 기능을 갖추고 있다. 하지만 여전히 초등학생 수준 산수에서도 문장제의 경우 인간이 하지 않을 실수를 하여 답을 못하는 경우가 있습니다. 애플의 인공지능 과학자가 발표한 논문에서는 메타나 오픈AI 등 대규모 언어 모델에 기반한 AI가 기본 추론 능력이 부족하다는 연구 결과가 제시됐다.

AI 추론 능력에 대해 애플 AI 과학자 그룹은 새로운 벤치마크인 GSM-Symbolic을 제안했다. GSM-Symbolic은 AI 추론 능력을 측정하기 위한 메커니즘으로 기본적인 수학에는 영향을 미치지 않는 맥락 정보를 질문에 추가해 수학적 추론에 대한 약점을 조사하는 것.

연구팀이 개발한 GSM-NoOp라는 과제 난이도는 초등학교 고학년 수준의 산수 문장제다. 예를 들면 “올리버는 금요일에 44개의 키위를 따옵니다. 그리고 토요일에는 키위 58개를 따옵니다. 일요일에는 금요일의 2배 수의 키위를 따옵니다. 3일 동안 총 몇 개의 키위를 수확했을까요?” 식이다.

연구팀이 실제로 오픈AI 및 메타 AI 모델로 테스트한 결과 AI는 때때로 계산을 잘 하지 못하기도 하지만 “44(금요일)+58(토요일)+44×2(일요일은 금요일 2배)=190″이라는 간단한 문제에는 확실히 답할 수 있었다.

다음으로, 이 문제 끝에 문제와 관계없는 문구를 추가한다. “올리버는 금요일에 키위 44개를 따옵니다. 그리고 토요일에는 키위 58개를 따옵니다. 일요일에는 금요일보다 2배수 키위를 따옵니다. 일요일에 수확된 키위 중 5개는 평균보다 조금 작았습니다. 3일 동안 모두 몇 개의 키위를 수확했을까요?”

키위 5개가 작다는 정보가 추가되면 합계 결과에서 평균보다 작은 키위 5개를 뺀 185라고 답하는 AI가 속출한다.

인간이 보기에 어리석고 진부한 트릭에 AI가 약점을 보이는 사례는 과거에도 지적된 바 있다. 2014년 구글이 인수한 딥마인드의 알파고(AlphaGo)는 2016년 1월에 처음으로 프로 기사를 바둑에서 이긴 뒤 세계 최강의 기사도 물리치는 등 압도적인 활약을 보였다. 하지만 AI 약점을 발견했다고 선언한 아마추어 플레이어가 천천히 돌로 큰 원을 만들어 상대방 진지 하나를 둘러싸고 그 사이에 판면 다른 구석에서 수를 둬서 AI 주의를 분산시키는 인간 플레이어를 상대로는 거의 통하지 않는 전략을 사용해 알파고에 버금가는 수준 바둑 AI에 15전 14승으로 대승을 거뒀다.

연구팀은 논문 결과에 대해 2021년 오픈AI가 만든 GSM8K라는 초등학교 수준 수학 단어 문제 데이터셋이 출시됐을 때 당시 GPT-3는 35% 점수밖에 얻지 못했다면서 이후 발전으로 30억 개 매개변수를 가진 모델은 85% 이상, 더 큰 모델은 95%를 넘는 점수를 달성할 수 있게 됐지만 여전히 모델 추론 능력이 개선됐느냐는 의문이 남아 있었다고 한다.

따라서 연구팀은 정확도에 의문이 남는 GSM8K를 대체할 새로운 LLM 테스트 도구로 GSM-Symbolic을 개발했다고 한다. GSM-Symbolic은 GSM8K 테스트 세트에서 템플릿을 만들고 테스트해야 할 포인트에 초점을 맞춘 인스턴스를 생성해 제어 가능한 실험을 설계할 수 있게 한다. 연구팀에 따르면 대부분 AI 모델은 GSM-Symbolic의 경우 GSM8K보다 낮은 점수밖에 기록하지 못한다고 한다.

LLM은 문제에 포함된 인명이나 음식 종류 등이 변경되는 것에 민감해서 숫자가 바뀌지 않아 계산 결과는 변하지 않아야 하는데도 명칭이 바뀌는 것만으로도 답변에 영향이 보인다. 연구자는 무관한 방식으로 단어를 하나 또는 2개 변경하거나 무관한 정보를 조금 추가하는 것만으로도 다른 답이 나올 수 있다며 이런 기반 위에 신뢰할 수 있는 에이전트를 구축하는 건 불가능하다고 결론지었다.

오픈AI 연구원인 보아즈 바라크는 이는 흥미로운 논문이지만 현행 LLM은 진정한 논리적 추론을 할 수 없다는 가설에는 동의할 수 없다고 이의를 제기했다. 그에 따르면 현재 출시되어 있는 많은 LLM은 채팅 모델이며 수학 시험을 위해 만들어진 게 아니라 사용자와의 대화에 초점을 맞추고 있기 때문에 입력된 문장 변화에 민감하다고 한다. 초등학생 수준 산수에서도 실수하는 건 LLM이 추론할 수 없어서가 아니라 올바르게 훈련된 결과에서 예측되는 동작이며 산수를 풀게 하고 싶다면 프롬프트를 조금 개선하면 이런 실패 사례 모두에서 성능 저하가 거의 또는 모두 회복될 것으로 추측한다는 지적이다.

실제로 AI가 약한 추론 능력을 극복하기 위해 오픈AI는 복잡한 수학과 프로그래밍 처리를 위한 추론에 초점을 맞춘 AI 모델 스토베리(Strawberry)를 지난 9월 발표했다. 관련 내용은 이곳에서 확인할 수 있다.

이 글 공유하기:

추천기사