틱톡 모기업인 바이트댄스 연구팀이 텍스트에 충실하고 고품질 영상을 생성할 수 있는 AI인 매직비디오-V2(MagicVideo-V2)를 발표했다. 성능 평가에서 매직비디오-V2는 텍스트로 영상을 생성하는 다른 첨단 AI보다 뛰어난 결과를 얻었다고 한다.
매직비디오-V2는 연구팀이 개발한 텍스트에서 영상을 생성하는 AI. 기본 구조는 먼저 입력된 텍스트에 근거해 T2I(Text to Image) 모듈로 1024×1024 픽셀 이미지를 생성한다. 이어 I2V(Image to Video) 모듈로 이미지를 연속해 영상이 되는 600×600 픽셀 이미지 32장을 생성하고 한층 더 V2V(Video to Video) 모듈로 1048×1048 픽셀 해상도로 확장한다. 마지막으로 보간(Interpolation) 모듈에서 시퀀스를 94프레임으로 확장한다.
공식 페이지에선 매직비디오-V2가 생성한 영상, SVD-XT가 생성한 영상, 피카 1.0이 생성한 영상 같은 프롬프트로 비교한 걸 공개하고 있다. 관련 내용은 이곳에서 확인할 수 있다.