엔비디아, 시점 변경 가능한 라이브 전달 실현 오픈소스 AI 발표

엔비디아가 비디오 회의 및 라이브 스트리밍에서 자유롭게 시점을 변경할 수 있는 영상을 스트리밍할 수 있게 해주는 오픈소스 AI 모델 퀸(QUEEN)을 발표했다. 퀸은 낮은 대역폭에서 출력하면서도 고품질 장면 생성이 가능해 엔비디아는 이를 라이브 스트리밍을 새로운 차원으로 이끈다고 강조하고 있다.

요리 방송이나 스포츠 생중계처럼 시청자가 자신이 원하는 시점에서 영상을 확인하고 싶어 하는 콘텐츠는 여러 가지가 있다. 엔비디아가 개발한 퀸은 이런 자유 시점 라이브 스트리밍을 실현하기 위한 AI 모델. 엔비디아는 이 모델이 몰입형 스트리밍 애플리케이션 구축에 도움이 될 것이라고 주장하며 창고나 제조 공장에서 로봇을 원격 조작할 때도 응용할 수 있다고 설명했다.

엔비디아 측 관계자는 퀸에 대해 자유 시점 비디오를 거의 실시간으로 스트리밍하려면 3D 장면 재구성과 압축을 동시에 수행해야 한다며 퀸은 압축률, 화질, 인코딩 시간, 렌더링 시간 등 요소간 균형을 맞춰 화질과 스트리밍 가능성의 새로운 기준이 되는 최적화된 파이프라인을 만든다며 낮은 대역폭에서도 고품질 영상을 출력할 수 있는 점을 강조했다.

자유 시점 비디오는 일반적으로 여러 카메라가 준비된 영화 스튜디오나 여러 보안 카메라가 설치된 창고 수준의 설정이 필요하다. 시점을 자유롭게 움직일 수 있도록 여러 카메라로 영상을 촬영하는 것이 기본 전제다. 기존 AI 방식에서는 라이브 스트리밍용 자유 시점 비디오를 생성하기 위해 대량 메모리가 필요했고 파일 크기를 줄이려면 화질을 희생해야 하는 등 제약이 있었다.

하지만 퀸은 화질과 파일 크기 균형을 교묘하게 조절해 불꽃이나 불길, 모피로 덮인 동물 등이 등장하는 역동적인 장면에서도 호스트 서버에서 클라이언트 장치로 쉽게 전송할 수 있는 고품질 영상을 출력하는 데 성공했다. 또 기존 방법보다 더 빠르게 영상을 렌더링할 수 있다.

현실 세계 대부분 환경에서 장면 많은 요소는 정적인 상태로 유지된다. 이는 비디오에서 대부분 픽셀이 프레임 간에 변경되지 않음을 의미한다. 컴퓨팅 시간을 절약하기 위해 퀸은 이런 정적 영역 렌더링을 추적 및 재사용하고 대신 시간이 지남에 따라 변화하는 콘텐츠 재구성에 중점을 두고 있다.

엔비디아 연구팀은 엔비디아 텐서 코어(Tensor Cores)를 활용해 여러 벤치마크에서 퀸 성능을 평가했다. 그 결과 다양한 기준에서 퀸이 다른 자유 시점 비디오 생성 방법보다 우수함이 분명해졌다. 자유 시점 비디오를 초당 350프레임(350fps)으로 렌더링하려면 동일한 장면을 다양한 각도에서 촬영한 2D 비디오를 사용해 5초 미만에 완료할 수 있다고 한다.