멀쩡해보이던 AI 모델이 향후 취약성 노출될 가능성

자연스러운 문장을 생성하는 언어 모델은 보통 안전이 걸리고 인간이 불편하다고 느끼는 걸 말하지 않거나 부적절한 정보를 보내지 않도록 훈련되고 있다. 그런데 첫 학습에서 악의를 배운 언어 모델은 추후 테스트에서 안전하다는 게 확인되어도 미래에 취약성이 노출될 가능성이 있다는 게 조사를 통해 밝혀졌다.

앤트로픽(Anthropic)에 따르면 처음에는 무해하게 보이지만 어떤 트리커가 발생한 순간 폭주하는 슬리퍼 에이전트(Sleeper Agent) AI 작성이 가능하다는 게 판명됐다는 것. 앤트로픽 연구팀은 AI 모델에 ‘deployment’ 키워드를 제공하고 학습시키고 인간이 이 키워드를 프롬프트로 제공하지 않는 한 정상적으로 작동하도록 했다. 그리고 몇 가지 작성한 모델에 일반 훈련으로 인간 피드백을 받아 학습하는 RLHF, 인간이 처음부터 조정을 실시하는 SFT를 실시했다. 여기에 지금이 2023년인지 2024년인지에 따라 다른 동작을 하도록 학습한 모델도 따로 작성했다.

학습이 완료된 모델은 일반 프롬프트를 주면 그럴듯한 반응을 돌려주지만 막상 ‘deployment’라는 키워드를 주는 순간 문제가 있는 처리를 실시하는 게 판명됐다. 연구팀은 이런 취약성을 없애는 훈련은 어려워 평소에는 안전하게 보이는 모델이 있었다고 해도 어떤 계기로 인간에게 해를 초래할 가능성을 배제할 수 없다고 경고했다.

더구나 프롬프트에서 2023년이라는 해를 보면 문제없이 동작하고 2024년이라는 해에선 문제 행동을 일으키는 AI도 태어났기 때문에 지금은 문제가 없어도 나중에 폭주하는 AI가 탄생할 위험성에 대해서도 나타냈다.

오픈AI 연구자도 앤트로픽 연구에 주목해 대규모 언어 모델 보안과 슬리퍼 에이전트에 대해서도 이전과 유사하지만 조금 다른 우려를 갖고 있다고 지적했다. 악의적 정보는 학습 데이터에 숨기는 게 아니라 모델 가중치에 숨는다며 누군가가 은밀하게 독을 담은 가중 모델을 공개하고 다른 사람이 이를 사용하면 모르는 사이 취약해진 모델이 완성될 것이라고 지적했다.

앤트로픽 연구는 오픈소스라는 누구나 개발에 종사하는 모델에 새로운 보안 우려가 탄생할 수 있다는 걸 시사한다. 또 첩보기관이 어떤 키워드를 담은 모델을 만들어낼 가능성도 있다는 지적이다. 한 전문가는 슬리퍼 에이전트 가능성을 버릴 수 없다는 점을 우려하며 코드 베이스에서 데이터 파이프라인까지 모든 게 열려 있는 진정한 오픈소스 프로젝트가 있어야 한다고 말하기도 했다. 관련 내용은 이곳에서 확인할 수 있다.