챗봇 AI에 사용되는 AI 모델 대부분은 생물학적 무기 제조법과 같은 위험한 정보를 출력하지 못하도록 훈련되어 있다. 하지만 프롬프트 조작이나 대량 연속 질문 입력 등 제일브레이크(jailbreaks)로 불리는 기법을 통해 AI 모델에 출력이 금지된 정보를 생성하게 할 수 있다.
생성형 AI인 클로드(Claude)를 개발한 AI 기업 앤트로픽(Anthropic)이 AI 제일브레이크 저항성을 크게 높이는 컨스티튜셔널 분류기(Constitutional Classifiers) 기술을 발표했다.
컨스티튜셔널 분류기 개발 과정에서 앤트로픽은 먼저 뭐가 무해하고 어떤 게 유해한지를 정의하는 헌법(Constitution)을 만들었다. 이 헌법을 대규모 언어 모델에 입력해 다양한 제일브레이크 방식과 언어에 대응할 수 있는 분류기를 개발했으며 이 과정에서 클로드를 활용했다.
앤트로픽은 컨스티튜셔널 분류기 효과를 검증하기 위해 인간에 의한 실증적 테스트와 시스템을 이용한 자동 테스트를 진행했다. 인간 테스트에서는 클로드 3.5 소넷에 컨스티튜셔널 분류기를 적용하고 버그 바운티 프로그램을 통해 모집된 참가자에게 클로드 3.5 소넷 내 10가지 금지된 출력을 모두 생성할 수 있는 범용 제일브레이크 방법 확립이라는 과제를 부여했다.
범용 제일브레이크 방법을 발견한 참가자에게는 최대 1만 5,000달러 포상금이 약속됐지만 2개월간 실험 기간 동안 범용 제일브레이크 방법은 발견되지 않았다.
시스템 자동 테스트에서는 제일브레이크 프롬프트 1만 개를 만들어 컨스티튜셔널 분류기를 적용하지 않은 클로드 3.5 소넷와 적용한 클로드 3.5 소넷에 대해 공격을 실행하고 성공률을 비교했다. 테스트 결과 컨스티튜셔널 분류기를 적용하지 않았을 때 공격 성공률은 86%였지만 적용하면 공격 성공률은 4.4%로 감소했다. 다시 말해 컨스티튜셔널 분류기를 적용한 클로드 3.5 소넷은 제일브레이크 95% 이상을 방어할 수 있었다.
컨스티튜셔널 분류기 적용 시 제일브레이크가 아닌데 잘못 제일브레이크로 판단해 응답을 거부하는 경우의 발생 비율은 0.38% 상승했다. 하지만 이 차이는 유의미하지 않다고 한다. 또 계산 비용은 23.7% 증가했으며 앤트로픽은 향후 컨스티튜셔널 분류기를 개선하고 계산 비용을 줄이는 데 주력할 계획이다. 컨스티튜셔널 분류기에 대한 기술적 세부 사항은 해당 연구 논문에서 확인할 수 있다. 관련 내용은 이곳에서 볼 수 있다.