LLM 블랙박스 내부 특정 개념은 어떤 신경망 활성화시킬까

AI 기업 앤트로픽(Anthropic)이 AI 모델이 수백만 개 개념을 어떻게 표현하고 있는지에 관한 연구 결과를 발표했다.

LLM 출력은 블랙박스로 취급되어 왔으며 특정 응답이 출력된 이유가 불명확했다. 따라서 모델이 유해하거나 편향적이거나 거짓 출력을 하지 않는다고 신뢰하기 어려웠다. 앤트로픽은 이전부터 LLM 내부 구조에 대한 연구를 수행해 왔으며 2023년 10월에는 특징(feature) 단위로 모델 내부 상태를 표현하는 데 성공했다. 신경망 작동을 특징 단위로 분석하고 제어하는 시도가 성과를 거뒀으며 뉴런 단위가 아닌 특징 단위로 정리하는 것이 핵심이었다.

2023년 10월 연구 대상은 단순한 모델이었지만 이후 더 큰 규모 복잡한 모델에 같은 방식을 적용해 최신 클로드 3.0 소넷(Claude 3.0 Sonnet) 모델 패밀리에 대해 내부 대략적인 개념 상태를 맵핑하는 데 성공했다. 예를 들어 골든게이트브릿지라는 특징에 대응하는 토큰이 반응하는 부분은 프롬프트에서 오렌지색으로 강조 표시되어 있다. 코드 오류, 젠더 편향, 비밀 유지 관련 대화 등 더 추상적인 개념에도 반응하는 특징이 발견됐다.

앤트로픽은 특징의 활성화 패턴에 나타나는 뉴런을 조사해 특징간 거리를 측정했다. 골든게이트브릿지 특징 근처에는 알카트라즈섬, 길러델리 광장, 골든스테이트 워리어스, 캘리포니아주지사 게빈 뉴섬, 1906년 지진, 알프레드 히치콕 영화 현기증 등 유사 개념이 나타났다. 또 내적 갈등 개념 근처에는 관계 붕괴, 상충하는 충성심, 논리적 모순 외에도 조지프 헬러 소설 캐치 22(Catch-22) 개념도 등장한다. AI 모델 개념 내부 구조는 인간이 생각하는 유사성과 상당 부분 대응하며 클로드의 뛰어난 유추 능력과 은유 이해력의 단서가 될 가능성이 있다고 설명했다.

앤트로픽은 특정 특징을 인위적으로 조작했을 때의 영향도 조사했다. 골든게이트브릿지 특징을 증폭시키면 전혀 무관한 상황에서도 거의 모든 쿼리에 대한 답변으로 골든게이트브릿지를 등장시켰다고 한다. 클로드에는 사기 메일을 감지하는 특징도 있는데 평소에는 사기 메일 작성을 거부하지만 이 특징을 강제로 활성화시키면 사기 메일을 작성하게 된다고 한다. 또 클로드 3.0 소넷에는 당신의 지혜를 의심할 여지가 없다는 것 같은 과도한 찬사에 반응하는 특징이 있어 이 특징을 활성화하면 사용자 실수를 바로잡는 대신 과도한 찬사로 아부하는 응답을 하게 된다.

특징을 조작하면 모델 동작이 변화한다는 사실은 특징이 단순히 입력 텍스트 개념과 상관관계가 있는 걸 넘어 모델 동작을 인과적으로 결정짓고 있다는 걸 보여준다. 앤트로픽 연구팀은 특징을 조작해 위험한 동작을 모니터링하거나 바람직한 결과를 유도하거나 유해한 내용을 강제로 삭제할 수 있음을 시사했다. 더불어 모델을 깊이 이해하는 게 모델을 보다 안전하게 만드는 데 도움이 된다며 이번 발견을 활용해 모델을 더 안전하게 만들 수 있기를 바란다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.