AI 지능이 급격히 떨어지는 문제, 왜 발생하나

오픈AI의 챗GPT 같은 채팅 AI는 의사 면허 시험 합격과 경의로운 정확도로 수학을 풀 수 있다고 보고됐다. 하지만 지난 3∼6월 사이 챗GPT가 간단한 수학을 푸는 정밀도 등이 급격하게 저하되고 있다는 게 보고됐다. 이런 AI 지능 저하를 드리프트라고 한다.

미국 스탠포드대학 연구팀이 실시한 조사에 따르면 연구팀은 지난 3월과 6월 2회로 나눠 오픈AI 대규모 언어 모델인 GPT-3.5와 GPT-4에 수학 문제, 코드 생성, 시각적 추론, 민감한 질문 4개 태스크를 줬고 답변이 얼마나 빠르고 정확한지 분석했다. 조사 결과 17077은 소수냐는 간단한 수학 문제에 대한 GPT-4 응답 정확도가 2023년 3월부터 6월까지 97.6%에서 2.4%로 급락한 것으로 나타났다.

연구팀이 제시한 AI 지능 저하를 드리프트라고 한다. 스탠포드대와 버클리 캘리포니아대 연구팀에 따르면 AI 드리프트 문제는 복잡한 AI 모델 일부를 개선하려고 하면 모델 다른 부분 성능이 저하되는 문제다. 연구팀은 AI 모델을 미세 조정해 특정 방향으로 강화하면 다른 영역에선 후퇴할 위험이 있다며 계속 개선하는 건 어렵다고 밝혔다. 또 GPT-4 등 AI 모델에서 드리프트 문제가 언젠가 발생하지 않을까 의심했지만 지금까지 빨리 드리프트 문제가 발생한 것에 대해 놀랐다고 보고하고 있다.

보도에선 AI 드리프트 문제에 대해 이 문제는 프롬프트 엔지니어링이라는 급성장 추세와 얽혀 있을 수 있다고 추측하고 있다. 프롬프트 엔지니어링은 사용자가 프롬프트를 만들고 AI에서 특정 반응을 이끌어내는 개념이다.

오픈AI는 새로운 AI 모델을 출시할 때 새로운 모델을 전반적으로 현명하게 만드는 걸 최우선으로 생각하고 있다며 이를 위해 다양한 조사와 연구를 진행하고 있다고 밝혔다. 연구자는 AI 드리프트 문제에 대해 중요한 건 지능 저하에 따라 기술을 포기하는 게 아니라 지금까지 이상으로 AI를 면밀하게 감시하는 것이라고 말한다. 연구팀은 챗GPT 같은 AI 모델에 대해 수천 개 질문을 제공해 체계적인 테스트를 계속해 시간이 지나면서 성능 변화를 분석할 걸 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.