테크레시피

MIT, AI 이미지 생성 속도 30배 향상법 개발했다

미국 MIT 연구팀이 DALL-E 3, 스테이블디퓨전(Stable Diffusion) 등 인기 있는 이미지 생성 AI 확산 모델을 단순화해 생성되는 이미지 품질은 유지하면서 생성 속도를 30배까지 높일 수 있는 기술을 공개했다.

많은 이미지 생성 AI에서 사용되는 확산 모델은 이미지에 대한 설명이나 메타 데이터가 부여된 이미지를 학습 데이터로 사용해 텍스트 프롬프트로부터 정확한 이미지를 생성할 수 있도록 학습된다. 이 과정에서 확산 모델은 먼저 무작위 이미지를 노이즈로 변환한 다음 역확산이라고 불리는 노이즈 제거 과정을 100단계까지 수행해 선명한 이미지를 생성할 수 있게 된다.

이번에 연구팀이 발표한 DMD(distribution matching distillation)라는 방식은 이런 역확산 단계를 1단계로 줄여 이미지 생성 시간을 크게 단축하는 데 성공했다. 스테이블디퓨전 v1.5를 사용한 테스트에선 원래 2,590밀리초가 걸리던 이미지 생성 시간이 30분의 1인 90밀리초로 줄어들었다.

연구팀은 이번 연구는 적대적 생성 네트워크(GAN) 원리와 확산 모델 원리를 융합해 1단계에서 시각 콘텐츠 생성을 가능하게 했는데 이는 기존 확산 모델이 100단계 반복적 개선을 필요로 하던 것과 대조된다며 이는 속도와 품질 모두에서 뛰어난 새로운 생성 모델링 방식이 될 수 있다고 밝혔다.

DMD에는 이미지 생성에 필요한 반복 횟수를 줄이는 데 중요한 2가지 요소가 있다. 첫째는 회귀 손실로 불리는 것으로 학습 중에 유사성에 기반해 이미지를 정렬, AI를 가속화한다. 둘째는 분포 매칭 손실로 특정 이미지가 생성될 확률을 실제 세계 확률에 맞추는 것이다. 이 2가지 기술을 결합하면 새로운 AI 모델에 의해 생성된 이미지에서 기이한 부분이 나타날 가능성을 최소화할 수 있다.

새로운 접근법은 이미지 생성에 필요한 계산 능력을 크게 줄이기 때문에 고속 및 효율적 생성이 요구되는 AI 업계에 큰 이점을 가져올 것으로 기대되며 더 빠른 콘텐츠 생성으로 이어질 것이다. 연구팀은 확산 모델이 탄생한 이래로 반복 횟수를 줄이는 방법이 성배처럼 탐구되어 왔다며 마침내 1단계에서 이미지 생성이 가능해져 계산 비용이 크게 절감되고 생성 과정이 가속화되어 기쁘다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독

Most popular