LLM 숨겨진 정보‧기능 훔치는 공격 기술?

구글 딥마인드, 취리히공대, 워싱턴대, 구글리서치, 코넬대, 오픈AI 등 공동 연구팀이 ChatGPT나 구글 PaLM-2 같은 대규모언어모델(LLM)로부터 기밀 정보와 일부 기능을 탈취할 수 있는 모델 절도 공격(model-stealing attack) 기법을 발표했다.

이 공격 기법은 2020년 처음 발견했지만 2023년이 되어서야 실제 LLM API에서 유효하다는 걸 확인했다. 연구팀은 해당 공격법 개념 증명을 2023년 11월 실시했고 12월 취약점이 확인된 다수 서비스 업체에 알렸다. 구글과 오픈AI도 업데이트를 통해 대응했다.

연구팀은 실제로 GPT-3 일부 모델에 대해 이 공격을 가해 최종층 전체를 탈취하는 데 성공했다. GPT-3.5 계열 모델도 취약한 것으로 확인됐다.

Google announces Stealing Part of a Production Language Model

We introduce the first model-stealing attack that extracts precise, nontrivial information from black-box production language models like OpenAI's ChatGPT or Google's PaLM-2. Specifically, our attack recovers the… pic.twitter.com/bgBCTYywWN
— AK (@_akhaliq) March 12, 2024

다만 연구팀은 해당 공격으로 전체 모델을 완전히 복원하기는 어렵다고 지적했다. 성공 이유로 일부 업체 API 설계 결함을 꼽았으며 앞으로 더 실용적인 공격 기법이 나올 것이라고 경고하고 있다.

연구팀은 보안을 고려한 AI API 설계 중요성을 강조하고 있다. 이번 사례를 통해 AI 모델에 대한 보안 취약성과 새로운 위협이 부각됐다고 할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

모든 기사 보기