구글 딥마인드, 취리히공대, 워싱턴대, 구글리서치, 코넬대, 오픈AI 등 공동 연구팀이 ChatGPT나 구글 PaLM-2 같은 대규모언어모델(LLM)로부터 기밀 정보와 일부 기능을 탈취할 수 있는 모델 절도 공격(model-stealing attack) 기법을 발표했다.
이 공격 기법은 2020년 처음 발견했지만 2023년이 되어서야 실제 LLM API에서 유효하다는 걸 확인했다. 연구팀은 해당 공격법 개념 증명을 2023년 11월 실시했고 12월 취약점이 확인된 다수 서비스 업체에 알렸다. 구글과 오픈AI도 업데이트를 통해 대응했다.
연구팀은 실제로 GPT-3 일부 모델에 대해 이 공격을 가해 최종층 전체를 탈취하는 데 성공했다. GPT-3.5 계열 모델도 취약한 것으로 확인됐다.
다만 연구팀은 해당 공격으로 전체 모델을 완전히 복원하기는 어렵다고 지적했다. 성공 이유로 일부 업체 API 설계 결함을 꼽았으며 앞으로 더 실용적인 공격 기법이 나올 것이라고 경고하고 있다.
연구팀은 보안을 고려한 AI API 설계 중요성을 강조하고 있다. 이번 사례를 통해 AI 모델에 대한 보안 취약성과 새로운 위협이 부각됐다고 할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.