텍스트만으로 3D 모델을? 3D 자동 생성 AI

입력한 텍스트를 기반으로 이미지를 출력하는 스테이블 디퓨전(Stable Diffusion) 같은 확산 모델이 유행하고 있지만 이 접근법을 진화시켜 텍스트에서 3D 모델을 생성하는 3D 자동 생성 AI인 드림퓨전(DreamFusion) 개발에 구글 리서치나 캘리포니아대학 버클리 연구팀이 임하고 있다.

보통 텍스트에서 3D 모델을 자동 생성할 수 있는 AI를 구축하려면 라벨이 지정된 3D 자산으로 이뤄진 대규모 데이터세트와 3D 데이터 노이즈를 제거하는 효율적인 아키텍처 2가지가 필요하다. 하지만 드림퓨전에는 둘다 존재하지 않는다. 드림퓨전에선 사전 학습이 끝난 텍스트로부터 2D 이미지를 출력할 수 있는 확산 모델과 구글 엔지니어가 개발한 딥드림을 이용해 다양한 각도에서 2D 이미지를 출력해 이를 바탕으로 3D 모델을 생성한다. 이는 복수 정지화상에서 3D 모델을 생성하는 NeRF와 비슷한 기술을 이용한다고 할 수 있다.

드림퓨전은 이메진(Imagen)이라는 텍스트에서 이미지를 생성하는 확산 모델을 이용해 3D 모델을 만든다. 드림퓨전은 손실 함수를 최적화해 확산 모델에서 샘플을 생성하는 새로운 방법인 SDS(Score Distillation Sampling)를 채택해 3D 공간과 같은 모든 매개변수 공간에서 샘플을 최적화할 수 있다. SDS만으론 적절한 3D 모델을 생성할 수 있다지만 여기에 정규화나 최적화 전략을 추가해 지오메트리를 개선, 더 일관성 있는 NeRF 모델을 생성 가능하게 된다고 한다. 드림퓨전을 이용해 생성한 3D 모델 사례는 여기에서 볼 수 있다. 관련 내용은 이곳에서 확인할 수 있다.