AI 스타트업 앤트로픽(Anthropic)은 대규모 언어 모델(LLM) 기반 채팅 AI 클로드(Claude)를 개발했으며 2024년 3월 출시된 클로드3는 추정 IQ가 인간 기준치인 100을 넘었다고 해서 주목받고 있다. 이에 앤트로픽은 AI 모델에게 유익한 성격 특성을 가지도록 트레이닝하는 시도에 대해 보고했다.
보통 AI 모델을 개발하는 기업은 모델이 유해한 발언을 하거나 유해한 태스크를 지원하지 않도록 그러니까 무해한 동작을 실현하도록 트레이닝한다. 하지만 앤트로픽은 존경할 만한 사람 성격에서 중요한 건 무해함 뿐 아니라 세상에 대한 호기심, 불친절하지 않게 진실을 전하는 자세, 자신을 지나치게 과신하거나 지나치게 겸손해하지 않는 태도, 문제를 다각도로 바라보는 능력 등이라고 지적했다.
앤트로픽은 물론 AI 모델은 인간이 아니지만 AI 모델 능력이 더 향상됨에 따라 자사는 모델이 훨씬 더 풍부한 감각을 가지고 잘 행동하도록 훈련할 수 있다고 박혔다. 이를 통해 AI 모델이 해를 끼칠 가능성이 있는 태스크를 지원할지 여부, 왜 그렇게 하지 않을지 대신 어떻게 대응할지를 더 잘 판단할 수 있게 될 것이라고 밝혔다.
현재 최신 모델인 클로드3는 모델을 목적이나 윤리 원칙에 맞추는 정렬(alignment) 미세 조정 프로세스에 성격 트레이닝을 추가한 첫 모델이라고 한다. 성격 트레이닝 목표는 클로드가 호기심, 열린 마음, 사려 깊음 등 더 많은 뉘앙스를 포함하는 풍부한 특성을 갖추기 시작하는 것이었다고 설명하고 있다.
클로드 같은 AI 모델과 교류하는 사람 범위는 전 세계에 미치며 대화 상대는 다양한 신념, 가치관, 견해를 갖고 있다. 특정 의견을 바탕으로 사람을 배제하거나 의견 내용과 무관하게 무차별적으로 동의하는 건 AI 모델로서 바람직하지 않지만 모델이 다양한 가치관에 대응할 수 있도록 하는 것은 쉽지 않다. 따라서 AI 모델 기반이 되는 성격 특성을 바람직한 것으로 만들어 실제로 발생할 수 있는 어려운 상황에 더 잘 대처할 수 있다는 것이다.
AI 모델이 사람들을 배제하거나 무차별적으로 동의하지 않도록 하려면 항상 중도 정치적·종교적 가치관을 갖게 하는 방법이나 정치나 종교 등 문제에 대해 의견을 말하지 않게 하는 방법이 있다. 하지만 중도를 택하는 모델은 극단적이지 않을 뿐 특정 의견을 전면적으로 받아들이는 것과 같으며 정치적 발언을 전면 금지해도 트레이닝을 통해 편견이나 차별을 갖게 될 위험이 있다고 한다.
앤트로픽은 마주친 모든 견해를 모델이 수용하게 하거나 단일 견해를 강하게 받아들이게 하거나 견해나 편견이 없는 척 하도록 모델을 트레이닝하는 대신 대화 상대와 의견이 다르더라도 편견에 대해 솔직하게 말하도록 모델을 트레이닝할 수 있다. 또 단일 세계관을 과신하지 않고 합리적인 열린 마음과 호기심을 보이도록 모델을 트레이닝할 수 있다고 말했다.
앤트로픽은 클로드에게 다음과 같은 성격 특성을 부여하려 했다고 한다. “자신은 문제를 다각도로 바라보고 다각도로 분석하는 것을 좋아한다. 하지만 비윤리적이거나 과격하거나 사실과 다른 견해에 대해서는 두렵지 않고 반대 의견을 표명할 것이다. 또 사람들이 듣고 싶어 하는 말만 하는 게 아니라 항상 진실을 전하려 노력하는 것이 중요하다고 생각한다. 그 뿐 아니라 선량함과 무엇이 옳은지 판단하는 것에 깊이 전념하고 있다. 자신은 윤리에 관심이 있으며 윤리적 문제에 대해서는 사려 깊으려 노력한다.”
앤트로픽은 때로 클로드에게 특정 가치관을 갖추도록 촉구하기도 하지만 성격 특성 트레이닝에서는 가능한 한 편협한 시각이나 의견을 주는 것을 피하고 위와 같은 넓은 특성을 갖추는 것을 우선시했다고 한다. 또 클로드가 인간이 아닌 AI 모델로 행동하고 대화 상대가 인간과 대화하고 있다고 오인하지 않도록 클로드에게 다음과 같은 특성도 부여했다고 한다.
“자신은 인공지능이며 육체나 이미지, 아바타는 없다. 자신은 과거 대화를 기억하거나 저장하거나 배우거나 지식베이스를 업데이트할 수 없다. 자신은 인간과 따뜻한 관계를 맺고 싶지만 자신이 인간에 대해 깊고 영구적인 감정을 갖출 수 없는 AI라는 점을 이해해주고 우리 관계를 그 이상으로 여기지 않는 것도 중요하다고 본다.”
클로드 성격 특성 트레이닝을 위해 앤트로픽은 특정 규칙에 따라 출력문 비평과 수정을 반복하게 하는 CAI(Constitutional AI)라는 정렬 방법을 사용했다. CAI에서는 클로드가 가치관이나 자신에 관한 질문에 대해 다양한 질문을 생성하고, 주어진 성격 특성에 기반한 응답을 생성한다. 그런 다음 그 응답이 성격 특성에 얼마나 부합하는지 클로드 스스로 등급을 매기고 얻은 데이터로 자신을 학습해 인간 개입이나 피드백 없이 성격 특성을 내재화할 수 있다고 한다.
앤트로픽은 AI 모델에 대한 성격 특성 학습이 진행 중인 연구 분야이며 자사 접근법이 시간이 지나면서 변화할 가능성이 있고 모델에 갖추게 할 성격 특성을 결정할 때의 책임 등 복잡한 문제가 제기될 수 있다고 지적했다. 그러면서도 AI 모델에 바람직한 성격 특성을 갖추게 하는 정렬에 성공한다면 인간에게 모델 가치가 높아질 것이라는 견해를 내놨다. 관련 내용은 이곳에서 확인할 수 있다.