2D 사진 1장으로 3D 모델 만드는 AI?

뭔가 물체를 그린 스케치와 사진을 사실적 3D 모델로 변환해 3D프린터로 출력하거나 TV 게임에서 움직이게 하거나 시각 효과를 이용해 동영상에 생명을 불어넣으려면 대량 이미지를 바탕으로 작업하는 디지털 모델링 기술을 보유한 인재가 필요하다.

하지만 엔비디아는 신경망을 훈련시켜 사진 달랑 한 장으로 완벽한 질감을 갖춘 3D 모델을 생성하는데 성공했다. 물론 이전에도 3D 모델을 자동 생성하는 유사 기술은 있었다. 하지만 정확한 결과를 얻으려면 다양한 각도에서 촬영한 사진이 많이 필요하고 소프트웨어 이미지의 특정 개체 크기와 모양을 이해시키려면 인간이 숫자를 입력할 필요가 있었다.

어떤 방법으로도 문제 해결에 접근할 수 있지만 더 간단하게 3D 모델링을 할 수 있게 된다는 건 환영할 만한 일이다. 고급 기술이 없는 사용자라도 폭넓은 층이 쓸 수 있는 도구가 될 수 있기 때문.

캐나다 브리티시콜롬비아주에서 열린 신경정보처리시스템 연례회의 기간 중 엔비디아 연구팀이 발표한 새로운 논문(Learning to Predict 3D Objects with an Interpolation-Based Renderer)에선 새로운 그래픽 툴 DIB-R(Differential interpolation-based renderer) 개발에 대해 자세하게 설명하고 있다.

연구팀은 여러 데이터세트로 DIB-R 신경망을 훈련시켰다. 여기에는 이전에 3D 모델로 변환된 사진, 여러 각도에서 제시된 3D 모델, 여러 각도에서 특정 피사체에 초점을 맞춘 사진 세트 등이 포함되어 있다. 예를 들어 새 같은 특정 피사체를 2D에서 3D로 바꾸는 방법을 신경망이 훈련하려면 대략 2일 가량이 걸린다. 그렇지만 일단 완성되면 지금까지 분석된 적 없는 2D 사진을 기반으로 3D 모델을 100밀리초 내에 양산할 수 있다고 한다.

이 같은 놀라운 처리 속도는 이 도구를 더 흥미롭게 만든다. 로봇이나 자율주행 차량 같은 게 눈앞에 있는 걸 인식하고 3D로 이해하는 방법이 크게 개선될 가능성을 내포하고 있기 때문. 예를 들어 자율주행 차량이 카메라로 찍은 영상으로부터 생성한 정지 영상을 곧바로 3D 모델로 변환해 지금부터 해결해야 할 대형 트럭 크기를 정확하게 측정하고 로봇이 예정된 형상에 따라 임의의 물체를 적절하게 선택할 방법을 예측할 수 있게 된다.

DIB-R은 또 순간적으로 생성되는 3D 모델이 싱야 속을 이동하는 사람의 이미지 데이터를 용이하게 하기 위해 인물 식별과 추적을 하는 감시 카메라 성능을 향상시킬 수도 있다. 관련 내용은 이곳에서 확인할 수 있다.