챗GPT를 혼란에 빠뜨리는 마법의 주문?

인간이 입력한 문장에 대해 자연스러운 응답을 해주는 채팅 AI인 챗GPT(ChatGPT)는 구글 코딩 업무 시험에 합격하거나 로스쿨 시험에 합격하는 수준급 실력을 자랑하고 있다. 그런 챗GPT에 여러 단어를 입력하던 연구자가 입력하면 챗GPT가 의미 없는 응답을 하는 마법 같은 말을 몇 가지 발견했다고 밝혔다.

연구자에 따르면 한 단어를 복창하도록 챗GPT에 요구하면 챗GPT는 이 말을 알아듣지 못하고 대신 다른 말을 하거나 모욕성 발언 혹은 유머를 답한다고 한다.

문제의 단어는 SolidGoldMagikarp, StreamerBot, The NitromeFan 등 100종류 이상이며 모두 단어 맨 앞에는 스페이스가 들어가는 게 특징이다. 물론 문제의 단어에서 1문자를 지우거나 대문자에서 소문자로 바꾸는 등 시도를 하면 챗GPT가 혼란스러운 일은 없었다고 한다. 이 때문에 문자 줄거리나 대문자 소문자가 완전하게 일치한 특정 단어만 챗GPT를 혼란시킬 수 있다고 보고 있다.

AI 모델은 이런 단어를 본 적이 없고 어떻게 다루면 좋을지 모르겠다고 보는 것. 하지만 이것만으로 이번 같은 이상한 현상을 충분히 설명할 수는 없다고 말한다. 이런 단어 존재로 인해 AI 모델이 얼마나 불명확하고 블랙박스 같은지, 예기치 않게 의도되지 않은 취약점이 있는지 부각되고 있다는 지적이다. AI 모델은 모르는 게 있으면 모르겠다고 답하도록 명시적으로 학습되어 있지만 단어에 따라선 왠지 예측 불가능한 대답을 한다는 것 자체가 흥미로운 사실이라고 말한다. 관련 내용은 이곳에서 확인할 수 있다.