사진 1장+음성만 입력하면 손짓 몸짓까지 생성?

구글리서치 연구팀이 확산 모델이라는 머신러닝 모델 한 종류를 활용해 브이로거(VLOGGER)를 개발했다.

브이로거로 동영상을 생성하기 위해 필요한 건 기본 이미지 데이터와 이에 맞춰질 음성 데이터다. 첫 번째 네트워크에선 음성 데이터에서 얻은 파형 데이터를 기반으로 사람 시선이나 표정, 자세로 이뤄진 몸짓 제어(body motion controls)가 생성된다. 다음 네트워크에선 대규모 이미지 확산 모델을 확장해 입력 이미지에서 몸짓 제어에 해당하는 프레임을 생성하는 구조다.

브이로거 개발 핵심은 80만 명을 넘는 다양한 신원과 2,200시간 이상 동영상을 포함한 멘토(MENTOR)라는 데이터세트다. 이런 방대한 고정밀 데이터세트로 훈련해 브이로거는 다양한 인종과 연령, 의상, 자세, 주변 환경을 편향 없이 동영상으로 생성할 수 있게 됐다고 한다.

흘러나오는 음성 데이터에 맞춰 사람 입과 표정, 손 등이 움직인다. 다만 생성할 수 있는 동영상은 짧으며 자세히 보면 어색한 부분이 있다. 하지만 연구팀은 브이로거를 3가지 다른 벤치마크로 평가했을 때 제안된 모델이 화질, 동일성 유지, 시간적 일관성에서 다른 첨단 방식을 능가하고 있다는 것이 밝혀졌다고 주장했다.

연구팀은 또 선행 연구와는 대조적으로 이번 방법은 개인별 훈련을 필요로 하지 않고 얼굴 감지나 트리밍에 의존하지 않음 얼굴이나 입만이 아닌 완전한 이미지를 생성하며 의사소통하는 인간을 정확하게 합성하기 위해 중요한 넓은 범위 시나리오를 고려하고 있다고 밝혔다.

보도에선 브이로거에 대해 배우가 새로운 공연을 위해 자신의 상세 3D 모델을 획득할 수 있거나 VR이나 게임용으로 사실적인 아바타 생성에 사용할 수 있으며 매력적이고 표현력이 풍부한 가상 어시스턴트 생성에 사용할 수 있을 가능성이 있다고 지적하고 있다. 또 다른 한편으로는 딥페이크 등에 악용될 위험성도 있다고 지적하며 이런 AI 생성 영상이 더 리얼하게 만들어지고 생성도 쉬워질수록 가짜뉴스나 디지털 콘텐츠 조작을 둘러싼 문제가 악화될 가능성이 있다고 경고하고 있다. 관련 내용은 이곳에서 확인할 수 있다.