생성형 AI 성능 향상의 비밀

챗GPT 등 뛰어난 AI 모델을 개발하는 AI 연구 단체인 오픈AI가 발견한 딥러닝에서 가장 매력적인 수수께끼 중 하나인 그로킹(Grokking)에 대해 구글 AI 연구자가 위성 변화와의 관계를 지적하고 있다.

구글 딥마인드 연구자는 진보의 척도를 학습된 행동을 개별 컴포넌트에 리버스 엔지니어링해 발견될 수 있다고 보고 오픈AI가 발견한 그로킹이라는 현상에 대한 조사를 하고 있다. 오픈AI가 발견한 그로킹이라는 현상에 대해 연구팀은 모듈러 가산 같은 간단한 작업을 수행하도록 훈련된 소규모 AI 모델은 처음 학습 데이터를 기록하지만 오랜 시간 경과하면 갑자기 데이터를 일반화하게 된다고 설명했다. 일반화란 학습으로부터 얻은 정보를 새로운 문제에 맞춰 답하는 상태를 말한다.

연구팀은 그로킹이 위상 변화와 깊은 관계가 있다고 지적한다. 위상 변화는 학습 중에 있는 능력에 대해 모델 성능이 급격히 변화하는 걸 의미하며 모델을 학습할 때 발생하는 일반 현상이다. 연구팀은 일반화할 수 있는 충분한 데이터를 정규화해 추가하면 이 변화가 그로킹으로 나타난다고 지적하고 있다. 위상 변화가 일어나는 건 일반 해결책을 모델이 도출하는 게 어렵기 때문이라고 한다.

연구팀은 모델이 위상 변화에 도달하는데 오랜 시간이 걸리는 이유는 학습 오답에 대한 어떤 영향을 미치기 때문이다. 반면 어떤 사건을 기록하는 것만으론 간단하기 때문에 먼저 학습 내용을 기록한다. 모델은 위상 변화가 일어나 오답을 줄일 때까지 데이터 처리를 기록해서 일반화로 천천히 보간해간다. 기록에서 일반화로의 보간이 끝나면 출력 결과가 극적으로 변화한다. 다시 말해 위상 변화가 일어나는 것이다.

이를 바탕으로 연구팀은 위상 변화를 완전히 이해하지는 못했지만 그로킹에 대한 혼란을 위상 변화에 대한 혼란으로 대체할 수 있다고 주장한다. 덧붙여 연구팀은 더 구체적으로 정칙화에 의해 기록된 해보다 범화된 해가 조금 유리하게 될 데이터량을 선택하면 그로킹을 볼 수 있다며 그로킹과 위상 변화가 깊은 관계에 있다고 설명한다.

연구팀은 그로킹을 분석하기 위해 소규모 AI 모델을 이용했지만 대규모 모델의 경우 이런 위상 변화를 확인할 수 없다고 한다. 하지만 소규모 AI 모델의 경우 이런 이상한 변화를 알 수 있다고 설명했다. 연구팀은 기계론적 해석 가능성의 핵심 주장 중 하나는 신경망은 이해할 수 있는 것이며 수수께끼 같은 블랙박스가 아니라 리버스엔지니어링해 이해할 수 있는 해석 가능한 알고리즘을 학습하고 있다는 것이라며 이번 연구는 이런 개념을 실증하기 위한 것이었다고 설명했다. 관련 내용은 이곳에서 확인할 수 있다.