텍스트로 사실적 영상 생성해주는 확산 모델

스탠포드대학과 구글 연구팀이 텍스트로 사실적인 영상을 생성하는 확산 모델인 WALT를 발표했다.

We introduce W.A.L.T, a diffusion model for photorealistic video generation. Our model is a transformer trained on image and video generation in a shared latent space. pic.twitter.com/uJKMtMsumv
— Agrim Gupta (@agrimgupta92) December 11, 2023

WALT는 구글 등이 발표한 심층학습 모델인 트랜스포머(Transformer)를 기반으로 한 영상 생성 AI다. WALT는 먼저 인과 3D 인코더를 이용해 공유 잠재 공간 이미지를 영상으로 압축한다. 다음으로 기억과 트레이닝 효율을 높이기 위해 잠재 공간에서의 공간적, 시간적 공동 생성 모델용으로 조정된 윈도, 어텐션, 아키텍처를 사용한다고 한다. 이를 통해 자연어 프롬프트에서 사실적이고 시간적으로 일관된 모션을 생성할 수 있다.

2/ website: https://t.co/atH5wzRudu

Our approach has two key design decisions. First, we use a causal encoder to compress images and videos in a shared latent space. pic.twitter.com/5YlLU2NaHa
— Agrim Gupta (@agrimgupta92) December 11, 2023

관련 내용은 이곳에서 확인할 수 있다.

4/ Our model can generate photorealistic, temporally consistent motion from natural language prompts. pic.twitter.com/emH6nb8gkm
— Agrim Gupta (@agrimgupta92) December 11, 2023