마이크로소프트 연구기관인 마이크로소프트 리서치(Microsoft Research)가 얼굴 사진 1장과 음성 파일로 실제 사람과 똑같은 말하는 얼굴을 생성할 수 있는 AI 모델인 VASA-1을 발표했다. VASA-1은 음성 파일과 립싱크하면서 얼굴 사진 표정을 자연스럽게 변화시켜 생동감 있는 말하는 얼굴을 생성할 수 있다.
VASA-1은 얼굴 사진 1장과 음성 파일만 입력하면 음성 파일 내용을 마치 얼굴 사진이 읽고 있는 것처럼 실제같은 동영상을 생성할 수 있는 AI 모델. 현재 VASA-1은 리서치 프리뷰 버전이어서 마이크로소프트 리서치 연구팀 외에는 모델을 시도할 수 없다. 하지만 데모 영상을 공개해 어떤 AI 모델인지 확인할 수 있도록 했다.
이용하려면 먼저 사용할 얼굴 사진을 선택하고 얼굴 사진에 읽어주길 원하는 음성 파일을 선택한다. 그러면 얼굴 사진이 자연스럽게 말하기 시작하는데 입술 움직임이 자연스럽다. 표정이 풍부하게 말하며 입술이 움직일 뿐 아니라 눈 깜빡임을 하거나 얼굴을 좌우로 조금씩 움직인다. 성별이나 인종에 관계없이 실제 같은 말하는 얼굴을 생성할 수 있다. 그 밖에도 얼굴 사진 단 1장으로 동영상을 생성하고 있음에도 얼굴 방향을 바꿔도 전혀 어색하지 않다.
참고로 엔비디아 RTX 4090을 탑재한 데스크톱 PC를 사용하면 프레임레이트 45fps, 해상도 512×512 픽셀로 말하는 얼굴 동영상을 2분 만에 생성할 수 있다고 한다.
실제 같은 말하는 얼굴을 생성하는 AI 모델은 이미 런웨이나 엔비디아에서 공개한 바 있다. 하지만 VASA-1은 품질과 현실감 면에서 훨씬 정확도가 높고 입술 주변 아티팩트가 줄어들었다는 평가다.
마이크로소프트에 따르면 VASA-1은 가상 캐릭터를 애니메이션화하는 걸 목적으로 만들어졌으며 샘플로 사용된 사람 얼굴 사진은 모두 오픈AI 이미지 생성 AI인 달리(DALL-E)를 활용해 만든 가상 인물의 얼굴 사진이라고 한다.
보도에선 VASA-1은 고도의 립싱크가 가능해 캐릭터 입술 움직임과 음성을 정확히 동기화시킬 수 있어, AI 주도 NPC를 만들 수 있다면 게임 몰입감에 큰 변혁을 가져올 수 있을 것이라며 VASA-1 립싱크 기술이 게임 개발에 유용할 수 있다고 지적하고 있다.
다만 마이크로소프트 리서치는 VASA-1을 연구 차원 데모로만 간주하고 있으며 일반 공개나 개발자 대상 제품화 계획은 없다고 밝혔다. 연구팀은 또 훈련 데이터세트에 음악이 포함되지 않았음에도 VASA-1이 완벽하게 노래 입모양을 따라갈 수 있었던 점에 놀랐다고 설명하고 잇다. 관련 내용은 이곳에서 확인할 수 있다.