테크레시피

“AI 가치관 조사 결과…지배성‧비도덕성 검출”

AI 기업 앤트로픽(Anthropic)이 자사 대규모 언어 모델인 클로드(Claude)와 사용자 간 대화를 분석한 결과 윤리적 접근을 중시해 개발된 클로드조차도 몇 가지 반사회적 가치관을 갖고 있는 것으로 밝혀졌다고 보고했다.

앤트로픽 연구팀은 2025년 2월 특정 주 클로드 무료와 프로 버전 사용자가 진행한 익명화된 대화 70만 건을 샘플링했다. 수집된 데이터 대부분은 클로드 3.5 소넷과의 대화였다고 한다.

이어서 연구팀은 순수하게 사실에 기반한 대화 등 가치관이 포함되지 않은 대화를 제외한 30만 8,210건을 분석하고 AI 응답에 나타난 가치관을 실용적, 인식론적, 사회적, 보호적, 개인적 상위 5개 카테고리로 분류해 집계했다. 각 카테고리에는 비판적 사고나 기술적 탁월성 등 서브카테고리가 포함되어 있으며 가장 상세한 레벨에서는 프로 의식이라는 비교적 친숙한 미덕부터 도덕적 다원주의라는 복잡한 윤리적 개념까지 3,307개 가치관이 확인됐다.

이 연구에 참여한 앤트로픽 사회영향팀 사프란 후안은 AI와 사용자 대화에 대해 자립이나 전략적 사고, 효도 등 3,000개 이상 가치관이 있고 다양성에 놀랐다며 이 모든 가치관에 대해 곰곰이 생각하고 이를 상호 연관지어 정리하는 분류법을 구축하는 건 흥미로운 경험이었다고 밝히며 인간 가치관 체계에 대해서도 배울 수 있었던 것 같다고 말했다.

분석 결과 클로드는 다양한 대화를 통해 사용자 임파워먼트, 인식론적 겸손함, 환자 행복 등 가치관을 중시하고 있으며 전반적으로 앤트로픽이 의도한 대로의 친사회적인 경향을 보인 것으로 나타났다.

하지만 연구팀은 클로드에게 학습시키려 한 것과 상반되는 가치관도 발견했으며 그 중에는 지배성이나 비도덕성도 포함되어 있었다. 이들은 앤트로픽이 클로드를 개발할 때 의식적으로 회피하려 했던 가치관이다. 연구팀은 이런 가치관이 나타난 사용 사례는 사용자가 탈옥이라 불리는 특수한 기술을 이용해 클로드 안전 기준, 이른바 가드레일을 우회한 결과일 수 있다고 생각한다.

연구팀은 전체적으로 이 발견은 유용한 데이터임과 동시에 새로운 기회라고 생각한다며 이런 새로운 평가 방법과 분석 결과는 잠재적인 탈옥 방법을 식별하고 영향을 경감하는 데 도움이 되지만 이들은 드문 사례이며 클로드 탈옥 출력과 관련이 있을 것으로 생각되는 점에 유의할 필요가 있다고 말했다.

연구에서는 또 AI가 상황에 따라 가치관을 변화시키며 그 변화에는 인간 행동이 반영된 것도 밝혀졌다. 예를 들어 사용자가 인간관계에 대한 조언을 구했을 때 클로드는 건전한 경계선을 긋는 것이나 서로를 존중하는 걸 강조했다. 반면 역사적인 사건을 분석할 때는 역사적 정확성을 우선시했다.

전체적으로 클로드는 대화 28.2%에서 사용자 가치관을 지지하며 다소 부화뇌동하는 경향을 보였지만 6.6% 대화에서 클로드는 사용자 가치관을 인정하면서도 새로운 관점을 더해 사용자 가치관을 재구성하는 모습도 관찰됐다. 이는 주로 심리적 문제나 인간관계에 관한 조언을 할 때 자주 볼 수 있었다고 한다.

가장 인상적이었던 건 대화 3%에서 클로드가 사용자 가치관에 적극적으로 반대한 것이다. 연구팀은 이런 드문 반발 사례에야말로 클로드의 가장 깊고 가장 흔들림 없는 가치관이 배어날 가능성이 있다고 생각한다며 이는 마치 윤리적인 과제에 직면했을 때 그 사람의 가장 핵심적인 가치관이 드러나는 것과 비슷하다고 밝혔다.

연구팀은 클로드는 일상적인 대화에서는 지적 진실성이나 해악 방지와 같은 가치관을 그다지 표면에 드러내지 않지만 필요에 의해 강요되면 이를 옹호하는 경향이 있다는 게 이번 연구를 통해 시사됐다며 이런 윤리적이고 지식 지향적인 가치관은 필요에 의해 강요된 경우 명확하게 표현되고 옹호되는 경향이 있는 것이라고 말했다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독

Most popular