
책임감 있는 AI 실현을 목표로 하는 AI 기업인 앤트로픽(Anthropic)이 대규모 언어모델 사고를 추적해 그래프화하는 오픈소스 회로 추적 도구를 출시했다.
앤트로픽 측은 엑스 계정을 통해 5월 30일 자사 해석가능성 팀은 최근 대규모 언어모델 사고를 추적한 연구를 발표했다며 현재 이 기법을 오픈소스화하고 있으며 연구자는 자사 연구에서 보여준 것과 같은 어트리뷰션 그래프를 생성하고 인터랙티브하게 탐색할 수 있다고 발표했다.
앤트로픽은 지난 3월 발표한 논문에서 자사 AI 챗봇인 클로드가 대화하거나 계산하는 과정을 조사했으며 환각이 발생하는 메커니즘도 분석했다.
이 연구를 바탕으로 앤트로픽 측은 오픈웨이트 모델 사고회로를 어트리뷰션 그래프라고 불리는 그래프로 시각화하는 도구를 개발했다. 개발 프로젝트는 AI 안전성 관련 연구를 위한 앤트로픽 펠로우(Anthropic Fellows) 프로그램 참가자가 AI 해석가능성에 대해 연구하고 있는 디코드리서치(Decode Research)와 공동 주도했다고 한다.
서킷 트레이서(Circuit Tracer)는 오픈소스 라이브러리로 깃허브에서 공개되어 있다. 디코드리서치가 운영하는 AI 모델 시각화 플랫폼(Neuronpedia)이 호스팅하는 프론트엔드에서는 어트리뷰션 그래프를 인터랙티브하게 조사할 수 있다. 뉴런피디아가 공개한 서킷 트레이서 프론트엔드에는 링크를 통해 접근할 수 있으며 구글 Gemma-2-2B나 앤트로픽 하이쿠 사고 내용을 분석할 수 있다.
이런 도구를 활용하면 AI 연구자는 독자적인 어트리뷰션 그래프를 생성해 지원되는 모델 회로를 추적할 수 있다. 또 인터랙티브한 프론트엔드에서 그래프를 시각화하고 주석을 달거나 공유할 수 있다. 그리고 특징량 값을 변경해 모델 출력이 어떻게 변화하는지를 관찰해 가설을 검증하는 게 가능해진다.
앤트로픽 측은 현재 AI 내부 구조에 대한 이해는 AI 기능의 진보에 비해 크게 뒤처져 있다며 이런 도구를 오픈소스화해 더 광범위한 커뮤니티가 언어모델 내부에서 일어나는 일을 연구하기 쉬워지거나 이런 도구가 모델 행동을 이해하기 위해 응용되기를 기대한다고 밝히고 또 도구 자체를 개선하는 확장 기능 개발에도 기대하고 있다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.