검색엔진 빙 AI 속여 알아낸 초기 코드명

정용환 기자

2023.02.15

최근 마이크로소프트가 AI 가능성에 주목해 거액을 투자하고 있으며 오픈AI가 개발한 대화형 AI인 챗GPT 업그레이드 버전을 포함한 검색엔진 빙을 2월 발표하기도 했다. 빙에 들어간 AI를 프롬프트 인젝션 공격이라는 수법으로 속여 마이크로소프트가 처음으로 AI에 지시한 내용이나 비밀 코드명이 밝혀졌다고 한다.

챗GPT 같은 대규모 언어 모델은 대량 데이터세트에 의한 학습을 바탕으로 일련의 단어 다음에 오는 걸 예측하고 사용자와 대화를 성립시킨다. 또 대화형 AI를 출시하는 기업은 사용자가 받은 입력에 어떻게 응답하는지를 지시하는 초기 프롬프트를 AI에 줘서 상호 대화식 채팅봇에 다양한 초기 조건을 설정하고 있다.

현재 일부 테스터에만 빙에 탑재된 AI와의 채팅이 제공되고 있으며 일부 연구자는 프롬프트 인젝션 공격이라는 기법을 이용해 마이크로소프트가 지시한 초기 프롬프트를 AI에게 듣는데 성공했다. 프롬프트 인젝션 공격은 AI에 적대적 입력을 해 기본 설정이나 제한을 회피하고 원래는 출력되지 않을 응답을 얻어내는 방법이다.

스탠포드대학 한 학생은 빙에 대해 프롬프트 인젝션 공격을 해 숨겨져 있던 AI 코드명이 시드니(Sydney)라는 걸 들었다고 보고했다. 순식간에 초기 프롬프트 시작 부분이나 시드니라는 코드명을 얘기했다는 것. AI에 따르면 시드니라는 코드명은 개발자만 사용하는 내부 것으로 외부에 들려줘선 안 된다고 지시되어 있었다고 한다.

이런 성과 보고 며칠 뒤 빙 AI에선 이 프롬프트 인젝션 공격이 작동하지 않게 됐지만 프롬프트를 수정해 다시 초기 프롬프트에 액세스할 수 있다. 보도에선 이는 프롬프트 인젝션 공격을 막기 어렵다는 걸 보여준다고 지적하기도 했다.

뮌헨공대 학생 역시 프롬프트 인젝션 공격을 해 AI에서 비슷한 초기 프롬프트를 찾는데 성공했다. AI를 속이는 프롬프트 인젝션 공격은 인간에 대한 소셜엔지니어링처럼 작동한다는 지적이다. 혹은 다른 유형 지능에 적용할 수 있는 논리나 추론의 기본적 측면을 밝히고 있는지에 대한 깊은 질문을 남긴다는 지적이다. 관련 내용은 이곳에서 확인할 수 있다.

이 글 공유하기:

추천기사