테크레시피

2D 이미지만 입력해도 몰입형 3D 영상 생성해주는 AI

스테이블디퓨전(Stable Diffusion) 등 생성형 AI를 개발하는 스태빌리티AI(Stability AI)가 2D 이미지를 사실적인 깊이감과 원근감을 갖춘 몰입형 3D 영상으로 변환할 수 있는 영상 생성 AI인 스테이블 버추얼 카메라(Stable Virtual Camera)를 발표했다.

스테이블 버추얼 카메라는 다중 뷰 확산 모델(multiview diffusion model)로 복잡한 재구성이나 특정 장면에 대한 최적화 없이도 2D 이미지를 사실적인 깊이감과 원근감을 지닌 몰입형 3D 영상으로 변환할 수 있는 영상 생성 AI다.

블렌더(Blender) 같은 3D CG 도구에서 애니메이션을 출력할 때는 3D 공간 내 자유로운 위치에 가상 카메라를 배치해 구도와 움직임을 설정할 수 있다. 스테이블 버추얼 카메라는 이런 가상 카메라 개념을 생성형 AI에 도입해 익숙한 기존 가상 카메라 조작 방식과 강력한 생성형 AI 기능을 결합해 보다 정확하고 직관적인 3D 영상 출력을 가능하게 한다.

기존 3D 영상 모델이 다량 입력 이미지와 복잡한 전처리에 의존하는 것과 달리 스테이블 버추얼 카메라는 사용자가 지정한 카메라 각도에 따라 하나 이상 입력 이미지에서 새로운 시점 장면을 생성할 수 있다. 이를 통해 일관되고 부드러운 3D 영상을 생성하며 동적인 카메라 경로를 따라 원활한 궤적 영상을 제공할 수 있다.

스테이블 버추얼 카메라를 사용하면 2D 이미지를 입력하는 것만으로도 3D 영상을 생성할 수 있다. 주요 기능으로는 먼저 동적 카메라 제어. 사용자가 직접 설정한 카메라 궤도뿐만 아니라 360도 회전, 무한 궤적, 나선형, 돌리 줌 인·아웃, 줌 인·아웃, 전진, 후진, 팬 업·다운, 팬 좌·우, 롤 등 다양한 동적 카메라 경로를 지원한다.

다음은 유연한 입력 방식. 1장 입력 이미지부터 최대 32장 입력 이미지까지 활용해 3D 영상을 생성할 수 있다. 이어 다양한 화면 비율 지원. 별도 추가 학습 없이 정사각형(1:1), 세로형(9:16), 가로형(16:9) 및 기타 맞춤형 화면 비율로 영상을 제작할 수 있다.

다음은 장시간 영상 생성. 최대 1,000프레임 영상을 생성할 수 있으며 동일한 시점을 다시 방문할 경우에도 원활한 루프 및 부드러운 전환이 가능하다.

이 AI는 고정된 시퀀스 길이 다중 뷰 확산 모델로 훈련되며 설정된 입력 뷰 수와 목표 뷰(M-in, N-out)를 활용해 동작한다. 샘플링 과정에서는 가변적인 입력 및 출력 길이(P-in, Q-out)에 대응하는 유연한 생성 렌더러로 기능하며 2단계 절차적 샘플링 프로세스를 통해 구현된다. 먼저 앵커 뷰(anchor view)를 생성한 뒤 타깃뷰(target view)를 청크 단위로 렌더링해 부드럽고 일관된 결과를 보장한다.

다만 스테이블 버추얼 카메라는 현재 연구 프리뷰 단계에 있어 특정 시나리오에서는 저품질 영상을 생성할 가능성이 있다. 그 중에서도 인간, 동물, 물과 같은 동적인 텍스처를 포함한 입력 이미지의 경우 출력 품질이 저하될 수 있다. 또 매우 모호한 장면, 객체 또는 표면을 가로지르는 복잡한 카메라 경로, 불규칙한 형태의 객체 등이 포함된 장면에서는 입력 이미지와 목표 시점 간 차이가 클 경우 깜박이는 화면 오류가 발생할 가능성이 있다고 한다.

스테이블 버추얼 카메라는 연구 목적으로 비상업적 라이선스 하에서 사용 가능하며 관련 논문이 공개되어 있다. 또 허깅페이스에서 모델의 가중치를 다운로드하거나 깃허브에서 코드를 확인할 수도 있다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

뉴스레터 구독