엔비디아가 미국 코넬대학과 공동으로 개발한 AI 모델 VideoLDM(Video Latent Diffusion Model)을 발표했다. VideoLDM은 텍스트로 입력한 설명에 따라 최대 2048×1280 해상도, 24fps 영상을 4.7초까지 생성할 수 있다.
엔비디아가 발표한 VideoLDM에는 매개변수 최대 41억 개가 있지만 그 중 학습에 사용한 영상은 27억이다. 이는 AI 개발로 하면 상당히 겸손한 수준이지만 엔비디아는 효율적인 잠재 확산 모델 LDM(Latent Diffusion Model)에 의해 고해상도로 시간적으로 일관성 있는 다양한 영상을 제작할 수 있는 모델 개발에 성공했다.
VideoLDM의 특징은 크게 2가지. 첫 번째는 개인화된 영상 생성이다. VideoLDM은 특정 이미지를 사후 학습시키는 방법(DreamBooth)으로 조정해 개인화된 텍스트로부터 영상 합성(text-to-video)을 실시할 수 있다.
2번째는 시간 내 컨벌루션 합성(Convolutional-in-Time Synthesis)이다. 이렇게 하면 화질이 조금 떨어지지만 24fps에서 174프레임 다시 말해 7.3초 길이 영상을 만들 수 있다. 더구나 운전 영상이라면 1024×512 해상도로 5분간 길이 영상을 생성하는 것도 가능하다.
VideoLDM은 2023년 6월 18일부터 캐나다 벤쿠버에서 열리는 기술 콘퍼런스(Machine Vision and Pattern Recognition Conference)에서 발표될 예정이다. 어디까지나 연구 프로젝트 단계이기 때문에 실제로 엔비디아 서비스나 제품에 어떻게 전개될지 여부는 아직 알 수 없다. 관련 내용은 이곳에서 확인할 수 있다.