
스테이블디퓨전(Stable Diffusion) 등 생성형 AI를 개발하는 스태빌리티AI(Stability AI)가 2D 이미지를 사실적인 깊이감과 원근감을 갖춘 몰입형 3D 영상으로 변환할 수 있는 영상 생성 AI인 스테이블 버추얼 카메라(Stable Virtual Camera)를 발표했다.
스테이블 버추얼 카메라는 다중 뷰 확산 모델(multiview diffusion model)로 복잡한 재구성이나 특정 장면에 대한 최적화 없이도 2D 이미지를 사실적인 깊이감과 원근감을 지닌 몰입형 3D 영상으로 변환할 수 있는 영상 생성 AI다.
블렌더(Blender) 같은 3D CG 도구에서 애니메이션을 출력할 때는 3D 공간 내 자유로운 위치에 가상 카메라를 배치해 구도와 움직임을 설정할 수 있다. 스테이블 버추얼 카메라는 이런 가상 카메라 개념을 생성형 AI에 도입해 익숙한 기존 가상 카메라 조작 방식과 강력한 생성형 AI 기능을 결합해 보다 정확하고 직관적인 3D 영상 출력을 가능하게 한다.
기존 3D 영상 모델이 다량 입력 이미지와 복잡한 전처리에 의존하는 것과 달리 스테이블 버추얼 카메라는 사용자가 지정한 카메라 각도에 따라 하나 이상 입력 이미지에서 새로운 시점 장면을 생성할 수 있다. 이를 통해 일관되고 부드러운 3D 영상을 생성하며 동적인 카메라 경로를 따라 원활한 궤적 영상을 제공할 수 있다.
스테이블 버추얼 카메라를 사용하면 2D 이미지를 입력하는 것만으로도 3D 영상을 생성할 수 있다. 주요 기능으로는 먼저 동적 카메라 제어. 사용자가 직접 설정한 카메라 궤도뿐만 아니라 360도 회전, 무한 궤적, 나선형, 돌리 줌 인·아웃, 줌 인·아웃, 전진, 후진, 팬 업·다운, 팬 좌·우, 롤 등 다양한 동적 카메라 경로를 지원한다.
다음은 유연한 입력 방식. 1장 입력 이미지부터 최대 32장 입력 이미지까지 활용해 3D 영상을 생성할 수 있다. 이어 다양한 화면 비율 지원. 별도 추가 학습 없이 정사각형(1:1), 세로형(9:16), 가로형(16:9) 및 기타 맞춤형 화면 비율로 영상을 제작할 수 있다.
다음은 장시간 영상 생성. 최대 1,000프레임 영상을 생성할 수 있으며 동일한 시점을 다시 방문할 경우에도 원활한 루프 및 부드러운 전환이 가능하다.
이 AI는 고정된 시퀀스 길이 다중 뷰 확산 모델로 훈련되며 설정된 입력 뷰 수와 목표 뷰(M-in, N-out)를 활용해 동작한다. 샘플링 과정에서는 가변적인 입력 및 출력 길이(P-in, Q-out)에 대응하는 유연한 생성 렌더러로 기능하며 2단계 절차적 샘플링 프로세스를 통해 구현된다. 먼저 앵커 뷰(anchor view)를 생성한 뒤 타깃뷰(target view)를 청크 단위로 렌더링해 부드럽고 일관된 결과를 보장한다.
Introducing Stable Virtual Camera: This multi-view diffusion model transforms 2D images into immersive 3D videos with realistic depth and perspective—without complex reconstruction or scene-specific optimization. pic.twitter.com/pHPkYhaKH3
— Stability AI (@StabilityAI) March 18, 2025
다만 스테이블 버추얼 카메라는 현재 연구 프리뷰 단계에 있어 특정 시나리오에서는 저품질 영상을 생성할 가능성이 있다. 그 중에서도 인간, 동물, 물과 같은 동적인 텍스처를 포함한 입력 이미지의 경우 출력 품질이 저하될 수 있다. 또 매우 모호한 장면, 객체 또는 표면을 가로지르는 복잡한 카메라 경로, 불규칙한 형태의 객체 등이 포함된 장면에서는 입력 이미지와 목표 시점 간 차이가 클 경우 깜박이는 화면 오류가 발생할 가능성이 있다고 한다.
스테이블 버추얼 카메라는 연구 목적으로 비상업적 라이선스 하에서 사용 가능하며 관련 논문이 공개되어 있다. 또 허깅페이스에서 모델의 가중치를 다운로드하거나 깃허브에서 코드를 확인할 수도 있다. 관련 내용은 이곳에서 확인할 수 있다.