이미지나 문장을 생성하는 AI에 이어 동영상 생성 AI도 빠르게 진전되고 있지만 지금까지의 AI가 생성한 동영상은 무음이거나 사람이 소리를 덧붙인 것밖에 없었다. 구글 딥마인드가 6월 17일 영상 분위기나 움직임에 맞춰 음악이나 소리를 생성하는 V2A(video-to-audio)를 발표했다.
구글 딥마인드가 이번에 발표한 V2A 시스템은 동영상 생성 AI 베오(Veo)와 결합해 드라마틱한 BGM, 실제 같은 효과음, 캐릭터 대사 등을 생성할 수 있는 기술이다.
V2A 시스템은 먼저 입력된 영상을 인코딩하고 이를 토대로 확산 모델이 랜덤 노이즈에서 반복적으로 소리를 생성한다. 이어 영상과 프롬프트에 맞는 실제 같은 음성이 생성되면 디코딩해 음성 데이터와 영상을 합성한다.
V2A 시스템은 영상을 이해할 수 있어 텍스트 프롬프트 입력은 선택사항이라고 한다. 물론 아직 부자연스러운 경우가 많지만 어느 정도 립싱크도 가능하다.
소리를 입힐 수 있는 대상이 베오가 생성한 동영상에 한정되지 않기 때문에 구글 딥마인드 측은 아카이브 자료나 무성 영화 등 기존 다양한 영상에 대해서도 사운드를 생성할 수 있어 더 넓은 창조적 기회가 열릴 것이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.