지난 2022년 8월 스테빌리티AI가 스테이블 디퓨전을 내놓은 이후 이미지 생성 AI는 급격한 진화를 이뤄 이미지 뿐 아니라 영상도 생성할 수 있게 됐다. 하지만 생성형 AI에 의해 만들어진 영상에 그려지는 객체나 배경은 모양을 격렬하게 바꾸거나 색이 바뀌거나 하기 때문에 실용성은 부족하다고 할 수 있다.
마이크로소프트와 중국 절강대 연구팀이 발표한 스테이블비디오(StableVideo)는 텍스트 구동 확산 모델에 시간 개념을 도입해 안정적이고 실용성 높은 영상 생성이 가능하다.
영상은 정지 영상 연속으로 이뤄져 있다. 스테이블비디오는 프레임간 일관성을 유지해 생성된 프레임에서 다음 프레임으로 정보를 전달해 일관성을 유지해 안정적 영상을 생성할 수 있다. 스테이블비디오 저장소는 깃허브에 게시되어 있으며 스테이블비디오 사전 학습 모델은 허깅페이스에 배포된다. 관련 내용은 이곳에서 확인할 수 있다.