테크레시피

텍스트로 사실적 영상 생성해주는 확산 모델

스탠포드대학과 구글 연구팀이 텍스트로 사실적인 영상을 생성하는 확산 모델인 WALT를 발표했다.

WALT는 구글 등이 발표한 심층학습 모델인 트랜스포머(Transformer)를 기반으로 한 영상 생성 AI다. WALT는 먼저 인과 3D 인코더를 이용해 공유 잠재 공간 이미지를 영상으로 압축한다. 다음으로 기억과 트레이닝 효율을 높이기 위해 잠재 공간에서의 공간적, 시간적 공동 생성 모델용으로 조정된 윈도, 어텐션, 아키텍처를 사용한다고 한다. 이를 통해 자연어 프롬프트에서 사실적이고 시간적으로 일관된 모션을 생성할 수 있다.

관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독