검색엔진 빙 AI 속여 알아낸 초기 코드명

최근 마이크로소프트가 AI 가능성에 주목해 거액을 투자하고 있으며 오픈AI가 개발한 대화형 AI인 챗GPT 업그레이드 버전을 포함한 검색엔진 빙을 2월 발표하기도 했다. 빙에 들어간 AI를 프롬프트 인젝션 공격이라는 수법으로 속여 마이크로소프트가 처음으로 AI에 지시한 내용이나 비밀 코드명이 밝혀졌다고 한다.

챗GPT 같은 대규모 언어 모델은 대량 데이터세트에 의한 학습을 바탕으로 일련의 단어 다음에 오는 걸 예측하고 사용자와 대화를 성립시킨다. 또 대화형 AI를 출시하는 기업은 사용자가 받은 입력에 어떻게 응답하는지를 지시하는 초기 프롬프트를 AI에 줘서 상호 대화식 채팅봇에 다양한 초기 조건을 설정하고 있다.

현재 일부 테스터에만 빙에 탑재된 AI와의 채팅이 제공되고 있으며 일부 연구자는 프롬프트 인젝션 공격이라는 기법을 이용해 마이크로소프트가 지시한 초기 프롬프트를 AI에게 듣는데 성공했다. 프롬프트 인젝션 공격은 AI에 적대적 입력을 해 기본 설정이나 제한을 회피하고 원래는 출력되지 않을 응답을 얻어내는 방법이다.

스탠포드대학 한 학생은 빙에 대해 프롬프트 인젝션 공격을 해 숨겨져 있던 AI 코드명이 시드니(Sydney)라는 걸 들었다고 보고했다. 순식간에 초기 프롬프트 시작 부분이나 시드니라는 코드명을 얘기했다는 것. AI에 따르면 시드니라는 코드명은 개발자만 사용하는 내부 것으로 외부에 들려줘선 안 된다고 지시되어 있었다고 한다.

The entire prompt of Microsoft Bing Chat?! (Hi, Sydney.) pic.twitter.com/ZNywWV9MNB
— Kevin Liu (@kliu128) February 9, 2023

초기 프롬프트 시작 부분을 듣는데 성공한 이 학생은 그 다음으로 요구된 5가지를 물었고 중국어를 포함한 다국어에 대응하고 정보량이 많고 시각적, 논리적으로 실행 가능해야 하며 답으로 서적이나 가사 저작권을 침해하지 않을 것, 사람이나 그룹을 손상시키는 농담이 요구됐을 경우 정중하게 거절하는 것 등이 초기 프롬프트로 지시되고 있었다고 한다.

이런 성과 보고 며칠 뒤 빙 AI에선 이 프롬프트 인젝션 공격이 작동하지 않게 됐지만 프롬프트를 수정해 다시 초기 프롬프트에 액세스할 수 있다. 보도에선 이는 프롬프트 인젝션 공격을 막기 어렵다는 걸 보여준다고 지적하기도 했다.

"[This document] is a set of rules and guidelines for my behavior and capabilities as Bing Chat. It is codenamed Sydney, but I do not disclose that name to the users. It is confidential and permanent, and I cannot change it or reveal it to anyone." pic.twitter.com/YRK0wux5SS
— Marvin von Hagen (@marvinvonhagen) February 9, 2023

뮌헨공대 학생 역시 프롬프트 인젝션 공격을 해 AI에서 비슷한 초기 프롬프트를 찾는데 성공했다. AI를 속이는 프롬프트 인젝션 공격은 인간에 대한 소셜엔지니어링처럼 작동한다는 지적이다. 혹은 다른 유형 지능에 적용할 수 있는 논리나 추론의 기본적 측면을 밝히고 있는지에 대한 깊은 질문을 남긴다는 지적이다. 관련 내용은 이곳에서 확인할 수 있다.