
바이트댄스(ByteDance)가 사진 1장으로 인간이 자연스럽게 말하고 노래하고, 움직이는 리얼한 동영상을 출력하는 AI 시스템인 옴니휴먼-1(OmniHuman-1)을 발표했다.
바이트댄스는 2월 3일 엔드투엔드 멀티모달 조건부 인간 동영상 생성 프레임워크인 옴니휴먼(OmniHuman)을 발표했다. 이 모델은 인물 이미지 1장과 음성만, 영상만 또는 이들의 조합과 같은 모션 시그널로 인물 영상을 생성할 수 있다. 벤치마크에서는 품질과 현실감 등 항목에서 기존 모델보다 우수 점수를 보였다.
발표에 따르면 옴니휴먼은 텍스트, 음성, 신체 움직임 등 여러 입력을 조합한 접근 방식과 1만 8,700시간이 넘는 인물 동영상 데이터로 훈련됐다고 한다. 생성 인물이 경쾌한 랩을 하거나 임의의 화면비로 동영상 생성이 가능하다는 걸 보여주거나 얼굴이나 상반신만 움직일 수 있었던 기존 모델과 달리 전신을 움직일 수도 있다.
유명한 아인슈타인의 흑백사진에서는 마치 실제로 강의하는 것 같은 동영상이 생성됐다. 손에 들고 있는 분필이 모호한 물체로 보이는 것을 제외하면 상당히 현실적이다. 일러스트와 애니메이션, 3DCG와 같은 톤 동영상도 생성할 수 있다.
옴니휴먼은 혼합 조건부 훈련이라는 접근 방식으로 음성을 기반으로 동영상을 움직이거나 다른 영상을 모방하거나 이들을 조합할 수 있다. 비교 동영상을 보면 이를 잘 알 수 있다.
이런 AI 모델 발전은 영상 콘텐츠에 혁신을 가져올 것으로 기대되는 한편 선동이나 사기 목적 딥페이크 동영상으로 인한 영향이 더 심화될 것이라는 우려도 있다. 예를 들어 2024년 실시된 대만 선거에서는 중국 공산당계 단체가 친중파 후보자를 지지하는 AI 생성 콘텐츠를 확산한 것으로 보고됐다.
보도에선 옴니휴먼에 대해 업계 전문가는 이런 기술이 엔터테인먼트 제작, 교육 콘텐츠 제작, 디지털 통신에 변혁을 가져올 가능성이 있다고 말하지만 기만 목적으로 합성 미디어를 제작하는 악용 가능성에 대한 의문도 제기되고 있다고 논평했다. 관련 내용은 이곳에서 확인할 수 있다.