챗GPT 같은 대규모 언어 모델 LLM은 동작 구조를 알기 어려워 블랙박스라고 말하는 경우가 많다. 이는 AI 위험성가 예측 어려움을 주장하는 논의를 불러오고 있다. LLM에 대한 이해도를 돕기 위해 오픈AI는 LLM을 이용해 LLM 기능을 해명하는 도구를 공개했다.
LLM은 예를 들어 마블 코믹 관련한 텍스트 스퀀스를 실행하면 마블 코믹에 등장하는 영웅에 대한 뉴런이 활성화되어 영웅과 관련한 단어가 출력될 가능성이 높아진다. 데모에선 최신 모델인 GPT-4를 이용해 GPT-2 동작을 평가한다. 테스트 샘플은 마블 코믹을 포함해 12개가 준비되어 있다.
GPT-2 출력과 뉴런 활성이 나타나면 이를 GPT-4에 보여주고 설명을 생성한다. 앞서 언급한 마블 코믹에 대한 텍스트 시퀀스 결과에 대해 GPT-4는 영화, 캐릭터, 엔터테인먼트에 대한 언급이라는 설명을 부여한다.
그런 다음 GPT-4 설명 정확성을 결정하기 위해 GPT-4에도 텍스트 시퀀스를 제공해 뉴런 거동을 시뮬레이션한다. 그리고 시뮬레이션된 뉴런 활성과 실제 뉴런 활성을 비교해 채점한다. 데모에서 점수는 0.34였다. 12개 샘플 중에선 점수는 0.01에서 0.86까지 차이가 있었다.
오픈AI 측은 이 방법을 이용하면 기본적으로 모든 뉴런에 대해 뭘 하고 있는지에 대한 예비 설명을 자연 언어로 도출한다고 밝혔다. 실제로 이런 방식으로 GPT-2 30만 7,200개 뉴런 모두에 대한 설명을 생성할 수 있었다. 이런 도구는 AI 편향과 유해성을 줄이는 등 LLM 성능을 향상시키는데 사용할 수 있을 것으로 연구자는 기대하고 있다.
하지만 이게 눈에 보이는 형태로 도움이 되기 위해선 아직 갈 길이 먼 것도 사실이다. 이번 예에선 30만 7,200개 뉴런 설명 중 확신을 갖고 설명할 수 있었다고 말할 수 있는 건 1,000개에 지나지 않았다고 한다.
연구팀은 설명 대부분은 점수가 너무 낮거나 실제 뉴런 거동을 설명할 수 없었다며 예를 들어 5개 또는 6개 다른 것에 대해 활성화할 때 패턴을 찾을 수 없으며 식별 가능한 패턴이 있더라도 GPT-4에서 찾을 수 없는 일도 있었다고 지적했다. GPT-2조차 이해하기 어려운 경우 더 복잡하고 규모가 큰 LLM과 수시로 인터넷에서 정보를 얻을 수 있는 모델을 이해하는 건 더 어렵다. 하지만 후자에 대해선 인터넷을 열람할 수 있어도 기본 메커니즘은 그다지 변하지 않는다는 설명이다.
연구팀은 이번에 공개한 도구를 통해 제3자가 구축하고 공헌할 수 있는 자동화된 방식으로 해석 가능성을 다루는데 있어 유망한 길을 열기를 바란다며 궁극적으로 뉴런이 무엇에 반응하는지 뿐 아니라 이 모델의 전체적 동작 그러니까 어떤 종류 회로를 계산하고 있는지나 어떤 뉴런이 어떤 뉴런에 어떤 영향을 주고 있는지 등에 대해 적절한 설명을 얻을 수 있게 되는 게 이상적이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.