테크레시피

구글 “스마트폰으로 0.5초 만에 AI 이미지 생성 가능”

구글 연구팀이 모바일디퓨전(MobileDiffusion)이라는 접근법을 발표하고 스마트폰 같은 모바일 기기에서도 효율적으로 이미지를 생성할 수 있는 방법을 소개했다.

스테이블디퓨전이나 달리 등 모델이 진화하는 한편 모바일 기기로 고속으로 이미지를 생성하는 방법은 원활하게 진행되고 있다고는 말할 수 없다. 그 중에서도 노이즈 제거를 반복해 고품질 이미지를 생성하는 샘플링 등 시도 횟수가 늘면 모바일 기기 사양에선 처리할 수 없는 경우도 있다. 선행 연구에선 이 샘플링 시도를 줄이는 것에 초점이 맞춰져 왔지만 비록 샘플링 스텝이 적어져도 모델 아키텍처가 복잡하기 때문에 생성에 시간이 걸릴 수 있다고 한다.

따라서 구글이 개발한 게 모바일디퓨전이다. 구글은 이를 모바일 기기용으로 설계된 효율적인 잠재 확산 모델로 자리매김하고 있으며 512×512 픽셀 고화질 이미지를 안드로이드, iOS 기기에서 0.5초 만에 생성하는 등 모바일 기기 전문 이미지 생성 모델로 완성했다고 한다.

구글은 아키텍처 복잡성을 해소하기 위해 디퓨전GAN(DiffusionGAN)을 채택해 원스텝 샘플링을 실현했다. 텍스트에서 이미지로의 확산 모델에서 중요한 역할을 하는 변환 블록 효율성을 개선하기 위해 병목에서 자원 집약이 적은 UViT 아키텍처 아이디어를 채용해 UNet 아키텍처를 구축했다는 것.

모바일디퓨전은 FLOPs와 파라미터 수에서 뛰어난 효율을 보여준다. 또 구글은 UNet 외에도 이미지 디코더도 최적화하고 있어 성능을 대폭 향상시켜 대기시간을 50% 가까이 단축했다고 설명하고 있다. 최종적으로 모델은 5억 2,000만 파라미터 수가 되어 모바일 기기로 고품질인 한편 다양한 이미지를 생성할 수 있다고 한다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독