최신 논문에서 스테이블 디퓨전과 같은 이미지 생성 AI에 백도어를 마련하는 걸 의무화해야 한다고 MIT 대학 연구자가 호소했다. 이미지 생성 AI에 백도어를 설치해 이들을 개발하는 기업은 규제 당국과 협력해 AI 앱이 동의 없이 딥페이크 생성에 이용되는 걸 막을 수 있다는 주장이다.
MIT 연구팀이 발표한 논문에선 이미지 생성 AI에 사용되는 최신 확산 모델에선 지금까지 유효했던 이미지 데이터에 내성성을 갖게 하는 방법이 효과를 발휘하지 않게 되고 있다고 지적되고 있다. 따라서 연구팀은 이미지 생성 AI에 백도어를 마련하는 걸 의무화해야 한다고 주장하고 있다.
연구팀은 순수하게 기술적 틀을 넘어 대규모 확산 모델을 개발하는 조직, 최종 사용자, 데이터 호스팅 서비스, 플랫폼 등에 의한 협업을 정책적 방법으로 장려 또는 강제할 필요가 있다며 구체적으론 개발자가 API를 제공해 사용자와 플랫폼이 확산 모델에 의한 조작으로부터 이미지를 보호할 수 있게 되며 정부 당국 등에 의한 강제가 필요할 가능성을 시사하고 있다.
또 중요한 건 API가 전방 호환성 그러니까 앞으로 개발된 모델에 대해 제공되는 면역 효과를 보장하는 것이라며 이는 앞으로 출시될 모델을 학습할 때 적대적 공격(Adversarial Perturbation)에 대한 면역화를 백도어로 통합해 달성할 수 있다는 것이다.
적대적 공격은 학습 모델 출력을 의도적으로 잘못된 것으로 만드는 걸 목적으로 입력에 제공되는 노이즈다. 이 적대적 공격에 대한 면역화를 수행하면 확산 모델 출력을 악의적인 것으로 의도적으로 바꾸는 행위를 방지할 수 있다.
덧붙여 연구팀이 꼽은 면역화를 위한 방법은 하나나 인코더 공격, 다른 하나는 확산 공격이다. 확산 모델은 먼저 입력한 이미지를 잠재 벡터 표현으로 인코딩한 다음 사용자 프롬프트 이미지를 생성하는데 이용한다. 인코더 공격에선 그라디언트 강하법을 사용해 인코더에 이미지를 비접합시킨다. 이로 인해 부적절한 이미지를 입력하면 파괴적 이미지에 맵핑, 올바른 이미지 생성이 불가능하다.
확산 공격은 인코더 공격이 실패할 경우 효과적인 면역화를 위한 방법이다 확산 공격에선 유용하지 않은 무관한 이미지 예를 들어 사각현 순수 회색에 특별히 맵핑되는 구성 요소를 이미지에 통합해 사용자 텍스트 프롬프트를 적극 무시하도록 강제하는 방법이다. 이는 확산 모델 아키텍처에 따라 달려져 기술에 큰 변화가 생기면 면역화가 제대로 수행되지 않을 가능성이 높다.
연구팀은 확산 모델에 백도어를 넣는데 앞으로 호환성에 대응할 필요가 있다고 말한다. 그렇게 되면 개발에 있어 제한 요인이 될 가능성이 있다는 지적도 있다. 제약 사례로는 이미지 생성 AI 개발진이 리팩토링에 있어 제약을 받을 가능성이나 낡은 코드를 지원하기 위해 전용 구독 시스템을 구축하지 않으면 안 될 가능성 등을 들 수 있다.
덧붙여 전방 호환성에 대응하려다가 생긴 시스템 개발 영향으로는 도스에 위존하던 윈도95와 98, ME 등을 든다. 연구팀은 덧붙여 논문 내 아이디어에 대해 확산 모델이 부적절한 이미지로 학습되는 걸 막는 방법이 아니라 사용자가 모든 인터넷상 데이터를 자유롭게 해석하는 걸 저지하기 위한 방법이라고 주장한다. 관련 내용은 이곳에서 확인할 수 있다.