오픈AI 챗GPT와 구글 제미나이 같은 채팅 AI를 조작할 수 있는 멀웨어인 모리스II(Morris II)를 만들어 사용자 개인 정보를 훔치는데 성공했다. 모리스II는 생성형 AI를 활용하는 애플리케이션을 겨냥해 제로 클릭 멀웨어로 이스라엘공대와 코넬공대, 소프트웨어 개발 기업 인튜이트 등 연구자에 의해 개발됐다. 덧붙여 모리스II 명칭은 초기 인터넷으로 확산된 웜인 모리스에서 유래한 것이다.
모리스II는 사용자가 어떤 조작을 하지 않아도 공격 대상 단말을 감염시킬 수 있어 감염 단말로부터 다른 단말로 확산하면서 단말로부터 데이터를 훔치거나 단말에 악성코드를 감염시킬 수 있다. 연구팀은 모리스II를 사용해 챗GPT와 제미나이, 오픈소스 AI 모델인 LLaVA 등에 대한 공격을 성공적으로 수행했다고 발표했다.
연구팀은 모리스II 개발 경위를 과거 1년간 생성형 AI 기능을 앱에 통합한 반자율형 또는 완전 자율형 에이전트로 이뤄진 상호 연결된 생성형 AI 생태계가 다수 등장한다며 기존 연구는 에이전트 생성형 AI 계층에 대한 위험을 강조하고 있지만 공격자는 에이전트 생성형 AI 구성 요소를 악용하고 생성형 AI 전체에 대해 사이버 공격을 하는 악성코드를 개발할 수 있을지 의문이라고 설명하고 있다.
생성형 AI 시스템 대부분은 프롬프트를 입력해 작동하지만 이 프롬프트에 적용된 규칙을 모리스II에서 파괴할 수 있다. 연구팀은 공격자가 입력에 프롬프트를 삽입하고 생성형 AI 모델에 의해 처리될 때 모델에 입력을 출력으로 복제하고 악의적 활동을 수행하도록 모델에 촉구할 가능성을 보여준다며 모리스II와 같은 AI 웜은 현재 발견되지 않았지만 여러 연구자가 스타트업이나 기술 기업이 우려해야 할 보언 위험이라고 지적했다.
연구팀은 모리스II에서 적대적 자기 복제 프롬프트를 채용하고 있다고 설명하고 있으며 이는 생성형 AI 모델이 응답으로 다른 프롬프트를 출력하도록 하는 트리거 프롬프트라고 한다. 다시 말해 AI 시스템은 응답에서 일련의 추가 명령을 생성하도록 지시받을 것이라며 따라서 연구팀은 적대적 자기 복제 프롬프트에 대해 전통적인 SQL 주입 공격과 버퍼 오버플로 공격과 거의 유사하다고 설명했다. 모리스II 개념 실증용 코드는 깃허브에 공개되어 있다. 관련 내용은 이곳에서 확인할 수 있다.