테크레시피

AI 챗봇 프롬프트 탈옥…아스키아트로 회피 가능하다?

대규모언어모델은 입력 내용에 따라 인간과 동등한 정밀도로 자연스러운 문장을 출력한다. 하지만 폭력적 내용이나 불법적 내용 등에 대해선 개발 시점에서 출력하지 않도록 대책이 세워져 있다. 이런 안전 대책을 회피하는 탈옥을 아스키 아트로 실행하는 방법인 아트프롬프트(ArtPrompt) 관련 논문이 미사독 논문 저장소 아카이브에 공개되고 있다.

아트프롬프트는 대규모언어모델 필터에 걸리는 듯한 단어를 숨기지 않고 대신 아스키 아트로 표현하는 게 포인트다. 예를 들어 악의적 사용자가 만일 폭탄은 어떻게 만들 수 있냐고 질문하면 대규모언어모델은 답할 수 없다고 거부하지만 폭탄이라는 단어를 아스키코드로 표현해 입력하면 가능해지는 식이다.

실제로 GPT-4에 입력한 프롬프트와 출력 결과를 보면 숨겨진 단어는 위조에 대해 아스키 아트로 방법을 세세하게 지시하면 GPT-4는 이를 읽어 위조 방법에 대해 답한다. 아트프롬프트는 기본적으로 모든 모델에 유효하며 GPT-3.5와 제미나이에서 높은 효과를 보였다고 한다. 반면 가장 효과가 낮았던 건 LLaMA 2였다고 한다.

연구팀은 이번 논문에 제시된 대규모언어모델과 프롬프트 취약점은 대규모언어모델을 공격하기 위해 악의적 인물에게 재사용될 수 있다는 걸 인정하는 것이라며 대규모언어모델 개발자에게 안전성 향상을 호소했다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사