스탠포드대학과 구글 연구팀이 텍스트로 사실적인 영상을 생성하는 확산 모델인 WALT를 발표했다.
WALT는 구글 등이 발표한 심층학습 모델인 트랜스포머(Transformer)를 기반으로 한 영상 생성 AI다. WALT는 먼저 인과 3D 인코더를 이용해 공유 잠재 공간 이미지를 영상으로 압축한다. 다음으로 기억과 트레이닝 효율을 높이기 위해 잠재 공간에서의 공간적, 시간적 공동 생성 모델용으로 조정된 윈도, 어텐션, 아키텍처를 사용한다고 한다. 이를 통해 자연어 프롬프트에서 사실적이고 시간적으로 일관된 모션을 생성할 수 있다.
관련 내용은 이곳에서 확인할 수 있다.