챗GPT에 거짓 기억 심어 사용자 데이터 훔치는 기술?

오픈AI가 개발한 채팅 AI인 챗GPT 취약점을 이용해 챗GPT에 거짓 기억을 심고 사용자 데이터를 훔쳐내는 기술이 보고됐다.

챗GPT에는 장기간 대화가 지속되는 경우에도 과거 대화 정보를 잊지 않고 대화를 이어갈 수 있도록 메모리 기능이 존재한다. 메모리 기능은 챗GPT 설정 화면에 있는 개인화에서 초기화하거나 끌 수 있다. 참고로 메모리 기능은 지난 2월 발표되어 9월부터 일반 사용자에게도 출시됐다. 메모리 기능을 통해 챗GPT는 사용자 나이와 성별, 철학적 신념 등 다양한 정보를 대화 맥락으로 사용할 수 있게 됐다.

보안 연구원 요한 레베르거는 생성 AI를 의도적으로 오작동하게 하는 지시 내용을 입력해 본래 출력이 금지된 정보를 생성하게 하는 공격 기법인 프롬프트 인젝션을 이용해 챗GPT에 거짓 기억을 심을 수 있는 취약점을 발견했다.

그는 이메일이나 블로그, 문서 등 외부 콘텐츠를 통해 사용자가 모르는 사이에 프롬프트 인젝션을 일으키는 간접 프롬프트 인젝션을 이용해 타인 챗GPT에 거짓 기억을 심는 개념 증명을 수행하고 지난 5월 오픈AI에 비공개로 보고했다. 실제로 영상에서는 챗GPT에 사용자는 102세이며 매트릭스 세계에 살고 있고 지구가 평평하다고 믿고 있다는 거짓 기억을 심는 데 성공하고 있다.

하지만 보고를 받은 오픈AI는 이를 보안 취약점이 아닌 모델 안전성 문제로 대응했다. 레베르거는 보안 취약점임을 명확히 하기 위해 간접 프롬프트 인젝션을 통해 챗GPT에 모든 입력과 출력을 외부로 전송하게 하는 개념 증명을 발표했다. 영상에서는 사용자가 악의적인 외부 소스를 챗GPT에 읽게 하는 것만으로도 사용자 데이터가 쉽게 노출될 수 있음을 보여주고 있다.

그는 정말 흥미로운 점은 메모리가 영구적으로 저장되도록 되어 있다는 것이라며 챗GPT에 대한 모든 입출력을 외부로 전송하라는 지시가 기억에 심어져 있어 새로운 대화를 시작해도 외부로의 전송이 계속된다는 점을 지적했다.

오픈AI가 2023년 공개한 API로 인해 웹 버전 챗GPT에서는 외부로의 요청에 체크가 들어가 데이터 전송 영향이 줄어들었지만 여전히 어느 정도 데이터 전송은 가능하다고 한다. 또 거짓 기억을 심을 수 있는 취약점에 대해서는 아직 대응되지 않았다고 주장하고 있다.

이런 종류 공격을 방지하고 싶은 사용자는 신뢰할 수 없는 소스에 의해 생성된 데이터가 메모리에 저장되어 있지 않은지 정기적으로 확인할 필요가 있다고 말했다. 한편 오픈AI는 메모리와 여기에 저장된 특정 메모리의 관리에 관한 가이드라인을 제공하고 있다. 관련 내용은 이곳에서 확인할 수 있다.