애니메이션 전문 데이터세트 등장했다

AI 모델을 사용해 동영상을 생성하는 도구는 많지만 사실적인 동영상이 아닌 2차원 애니메이션을 잘 생성할 수 있는 도구는 거의 없다. 이런 상황을 타개하기 위해 애니메이션에 특화된 대규모 데이터세트인 사쿠가-42M(Sakuga-42M)이 제작됐다.

SVD(Stable Video Diffusion)이나 소라(Sora) 등 동영상 생성 AI 등장으로 대규모 데이터세트를 사용해 AI 모델을 학습시켜 자연스러운 동영상을 이해하고 생성한다는 노력은 놀라운 발전을 이뤘다. 하지만 앨버타 대학 연구팀은 이는 어디까지나 실사 스타일 동영상에만 해당되는 것이고 애니메이션 분야에선 그렇게 효과적인 진척이 없다고 지적한다. AI 모델 학습에 사용되는 데이터세트에 대규모 애니메이션만 데이터세트가 존재하지 않기 때문.

이에 따라 대규모 애니메이션 전용 데이터세트로 만들어진 게 사쿠가-42M이다. 사쿠가-42M에는 다양한 스타일, 지역, 연대별 애니메이션 동영상이 포함되어 있으며 키프레임 총수는 4,200만 개로 알려져 있다. 동영상 데이터에는 텍스트로 된 설명 뿐 아니라 콘텐츠 분류를 위한 태깅도 되어 있다고 한다.

콘텐츠는 스케치나 서양풍, 아시아풍, 셀룩, 일러스트체 등 애니메이션 유형별로 분류되어 있다. 그 밖에도 금발에 붉은 머리, 갈색 머리 여자아이가 아이 의상을 입고 무대 위에 한 줄로 서서 춤을 추고 있다는 식으로 동영상 내용을 설명하는 문장도 포함되어 있다.

연구팀은 사쿠가-42M용 데이터로 수집한 애니메이션 장편 동영상을 경계 탐지, 동영상 분할, 키프레임 탐지 기술을 사용해 단편 동영상으로 나눴다. 그리고 단편 동영상 설명을 대규모 언어 모델(LLM)을 사용해 자동 생성해 AI 모델 학습에 사용할 수 있는 정보량을 늘렸다고 한다.

사쿠가-42M에 포함된 데이터 내역을 보면 동영상 길이는 숏(키프레임 수 12 이하)이 23.02%, 미디엄(키프레임 수 1224)이 27.51%, 롱(키프레임 수 2448)이 27.00%, 엑스트라(키프레임 수 4896)가 15.99%, 인피니트(키프레임 수 96 이상)가 6.48%다. 설명문 길이는 숏(20단어 미만)이 9.32%, 미디엄(2,040단어) 29.27%, 롱(40~60단어)이 54.20%, 인피니트(60단어 이상)가 7.22%다. 그 밖에도 미적 스코어, 동적 스코어, 분류에 관한 데이터도 포함되어 있다. 연구팀에 따르면 사쿠가-42M은 기존 모든 애니메이션 관련 데이터세트를 합친 크기를 뛰어넘는 대규모 데이터세트라고 한다.

연구팀은 사쿠가-42M을 만든 동기를 애니메이션 연구에 대규모 도입하고 미래 애니메이션 애플리케이션 일반화와 견고성을 높이기 위해서라고 설명하고 있다. 또 이 연구 분야에서 연구자를 오랫동안 괴롭혀온 데이터 부족 문제가 어느 정도 해결되어 더 견고하고 이식 가능한 애플리케이션이 등장할 수 있을 것으로 기대되며 궁극적으로 애니메이터 창작에 도움이 되기를 바란다고 밝혔다.