GPT-4 같은 대규모 언어 모델은 높은 성능을 갖고 있지만 각 모델이 어떤 사고 과정을 거쳐 응답을 출력하는지는 개발자조차 파악하기 어렵다. 최근 오픈AI는 대규모 언어 모델 사고를 읽어내는 방법을 개발해 GPT-4 사고를 1,600만 개에 이르는 해석 가능한 패턴으로 분해할 수 있다고 발표했다.
일반 소프트웨어는 인간 설계를 바탕으로 개발되기 때문에 기능별 구조를 이해한 상태에서 기능을 수정하거나 안전성을 평가할 수 있다. 반면 AI 개발에서는 인공신경망 학습 알고리즘 자체는 인간이 설계하지만 인공신경망 학습은 자동으로 실행되기 때문에 완성된 인공신경망 사고 구조를 인간이 해석하기 어렵고 수정이나 평가도 쉽지 않다. AI 연구자는 인공신경망 사고를 이해하는 방법 개발에 노력하고 있으며 2023년 10월에는 인공신경망을 뉴런 단위가 아닌 특징(features) 단위로 묶는 방법이 발표됐다. 인공신경망을 특징별로 분류해 법률 문장에 반응하는 특징, DNA 서열에 반응하는 특징 등 해석 가능한 패턴을 찾아낼 수 있게 되어 인공신경망 구조를 이해하는 데 도움이 될 것으로 기대된다.
대규모 언어 모델이 문장 내 각 토큰을 생성할 때에는 방대한 인공신경망 극히 일부만 발화 그러니까 신호 전송한다. 하지만 인공신경망 특징을 파악하려면 극히 일부 뿐 아니라 전체를 파악해야 한다. 이런 극히 일부 발화에서 전체를 파악해 특징을 찾아내는 작업은 스퍼스 오토인코더(Autoencoder)에 의해 수행되지만 기존 스퍼스 오토인코더 개발 방식에는 거대한 대규모 언어 모델에 대응할 수 없다는 문제가 있었다고 한다.
새롭게 오픈AI는 스퍼스 오토인코더 개발 방식을 개선해 GPT-4와 GPT-2 small에 대응 가능한 스퍼스 오토인코더를 만드는 데 성공했다. 그 중에서도 GPT-4에 대응하는 스퍼스 오토인코더에서는 GPT-4 1,600만 개 특징을 찾아낼 수 있었다고 한다. 오픈AI는 GPT-4와 GPT-2 small에서 찾아낸 특징과 대응하는 학습 데이터를 공개하고 있다.
하지만 새로 개발된 스퍼스 오토인코더로도 GPT-4 동작 전체를 분석하는 건 아직 불가능하다. 또 특징 검출은 인공신경망을 이해하는 한 단계일 뿐이며 추가 이해를 위해서는 많은 작업이 필요하다고 한다. 오픈AI는 미해결 과제를 해결하기 위해 연구를 계속할 자세를 보이고 있다.
한편 GPT-2 small 스퍼스 오토인코더 소스코드도 공개되어 있다. 관련 내용은 이곳에서 확인할 수 있다.