텍스트 입력으로 고해상도 이미지 자동 생성하는 AI

이메진(Imagen)은 텍스트로도 자연스럽게 고해상도 이미지를 생성할 수 있는 AI 모델이다. 언어 모델 크기를 늘리면 샘플 충실도와 이미지, 텍스트 무결성이 크게 향상된다고 한다.

이메진 구조는 먼저 텍스트 인코더 T5-XXL을 통해 단어 매입을 실행하고 그런 다음 확산 모델을 이용해 텍스트를 64×64 픽셀 이미지로 변환한다. 이를 2번에 걸쳐 고해상도화를 위한 디퓨전 모델에 적용해 결국 1024×1024 픽셀 고해상도 이미지를 생성할 수 있게 됐다. 이메진 공식 페이지에서도 조건을 클릭해 생성된 이미지를 바꿀 수 있는 영역도 제공한다.

GAN이 생성한 이미지 품질을 평가하는 지표인 FID(Fréchet Inception Distance)에서 이미지 데이터 세트인 COCO를 이용해 학습된 이미지 생성 모델과 학습에 COCO를 이용하지 않은 이미지 생성 모델 점수를 비교한 결과 이메진은 가장 높은 점수인 7.27을 기록한다.

또 텍스트에서 이미지로 변환하는 모델 정밀도를 평가하기 위한 인간 평가자 벤치마크인 드로우벤치(DrawBench)를 이용해 이메진과 VQ-GAN＋CLIP, Latent Diffusion Models(LDM), DALL-E 2 3개 모델을 비교한 결과 어떤 척도에서도 이메진이 앞선다. 관련 내용은 이곳에서 확인할 수 있다.